본문으로 바로가기 대메뉴로 바로가기 바닥글 바로가기

기상데이터를 활용한 화재위험의 빅데이터 및 예측 분석

1. 소개

1.1. 연구 개요

화재사고는 미국 전역에서 매일 발생한다. NFPA(National Fire Protection Association)에 따르면 2014년 화재사고로 인한 총 피해는 약 3,283억 달러로 추정되며, 그 규모는 미국 국내 총생산(GDP)의 1.9%에 해당한다. 매일 수많은 화재사고가 발생함에 따라 소방서는 화재대응에 필요한 자원부족에 직면하고 있다. 이 연구의 목표는 주(State) 수준의 지리적 위치, 기상 조건 및 월별 화재발생 시간과 같은 입력자료를 기반으로 화재위험을 예측하는 데이터 기반 모델의 프레임 워크를 만드는 것이다. 이 연구에서는 화재사고의 결과를 기반으로 화재위험을 평가하고, 그 결과는 콘텐츠의 예상 가치와 자산손실(달러 금액)로 정량화하였다.
정확한 예측모델을 구현하기 위해 NFIRS와 NOAA의 두 자료에서 얻은 대량의 실제 데이터를 사용하였다. 이 데이터 자료를 사용하여 각 입력요인과 응답변수 간의 관계를 파악하기 위해 GBT라는 기계 학습 알고리즘을 구현하였다.

1.2. 화재사고에 대한 날씨의 역할

화재사고의 영향에 대해 두 가지 주요 유형의 화재 설명지표(화재의 강도 및 심각도)를 사용하고 있다. 날씨는 화재 발생 시 화재의 거동을 변화시켜 화재의 규모에 직접적인 영향을 미치므로 중요한 역할을 한다. 풍향, 풍속, 온도와 같은 기상 요인은 확산 면적, 확산 속도, 발화 및 화재 거동과 같은 화재와 관련된 다양한 속성에 영향을 미친다. NFIRS에서 제공한 정의에 따르면 풍향은 화재 발생 시 지면에서 부는 바람의 방향으로 이는 소방관이 화재 원인, 확산 속도 및 화재 방향을 파악하는데 도움이 된다.
또한, NFIRS에 따르면 사고 발생 시 화재 확산 속도에 영향을 미치는 가장 중요한 요소 중 하나는 풍속이다. NFIRS의 정의에서 풍속은 화재의 근원에 도달하기 위한 진압속도를 말한다. 이 정보는 화재 관리자가 화재의 행동을 이해하고 예측하는 것은 물론 다양한 화재예방 전략을 평가하는 데에도 도움이 된다. 온도는 또 다른 주요 요소이며, 온도와 관련된 데이터는 화재의 발생위치에서 기록된다. 소방관리자 및 소방기관은 다양한 주변 온도에서 화재 진압과 관련된 문제를 이해하기 위해 이러한 데이터를 사용할 수 있다.

1.3. 예측 화재위험 분석에 관한 사전 연구

데이터 기반 예측모델은 사전에 화재위험을 모델링하기 위해 개발되었다. 예를 들어, 뉴욕시 소방국(FDNY)은 2014년에 RBIS(Risk-Based Inspection Strategies)라는 예측 소프트웨어를 개발했다(Dwoskin, 2014). RBIS는 건축물의 등급을 할당하기 위해 위험지수 개념을 사용하였다(Dwoskin, 2014; Lau, Lai, Lee, & Du, 2015; Watts & Kaplan, 2001). 이 모델의 결과는 건축물의 특성, 위반 행위(무허가 작업, 가연성 폐기물 축적 등) 및 행동 원인을 기반으로 한 건물의 화재발생 확률이다. 그러나 이 모델은 화재위험을 모델링하기 위해 화재사고로 인한 손실의 크기를 고려하지 않는다는 점에서 우리가 개발한 모델과 대조된다. 또한 손실 규모를 효과적으로 활용하여 각 화재사고로 인한 위험의 순위를 매길 수 있으므로 소방관이 구조 작업에 더 잘 대비할 수 있다. 이 연구의 나머지 부분은 섹션 2의 방법, 섹션 3의 데이터 분석, 섹션 4의 결과 모델과 분석 그리고 섹션 5의 결론 및 향후 연구 방향으로 구성되었다.

2. 방법

이 섹션에서는 입력된 값을 기반으로 화재사고로 인한 손실값을 예측하는 단계를 설명하며 방법의 구조에 대한 개요는 그림 1로 표현하였다.

2.1. 데이터 접근

2005년부터 2014년까지 NFIRS 및 NOAA 온라인 데이터베이스에서 각각 화재 및 날씨 데이터를 수집하였다. 데이터의 가용성을 기반으로 각 주별 최대한 많은 도시를 표본추출 하였으며 불완전하거나 속성에 대한 정의가 누락된 것들은 제외하였다. NFIRS 데이터베이스는 2005년부터 2014년까지 총 사고 건수가 약 4,700만 건이 기술되어 있으며 연간 백만 건이 넘는 사건을 다루고 있다. 고유 ID로 구분되어있는 각각의 데이터들의 사건정보에는 재산 손실 및 인명 손실(소방관 및 민간인 사망 및 부상), 시간, 위치 및 대응 소방서 정보와 같은 내용이 포함된다. 이 데이터베이스에서 화재사고는 구조적 화재, 외부 화재(자연식물, 재배식물 및 외부 쓰레기) 및 기타 화재(차량, 가스 또는 증기 폭발) 등의 각각의 범주로 분류된다. 이 연구에서 인적 손실은 NFIRS에서 제공하는 데이터에서 전체가 반영되지 않았기 때문에 "총 손실률" 계산에는 고려되지 않았다. 지역(우편코드)에 따른 기상데이터, 특히 기온, 강수량, 증발 및 풍속에 대한 일별 요약은 NOAA의 기후 데이터 온라인 포털에서 추출하였다.

2.2 데이터 탐색

이 단계에서는 패턴이나 추세를 검색하고 식별하기 위해 각 주에서 사용할 수 있는 데이터가 있는 3~5개 도시를 선정하였다. 지역, 주 및 도시가 포함된 미국 인구조사국의 지리적 관계파일(미국 인구조사국 자료)을 사용하여 여러 단계의 지리적 해상도로 데이터를 처리하였고, 지역 및 주 수준에서 화재 위험성을 분석했다. 그림 2에서는 2005년부터 2014년까지 획득한 데이터에서 각 주에 대한 사고당 평균 총 손실을 조사하여 주 수준에서 화재위험을 시각화했다. 그림에서는 대부분의 주가 비슷한 화재위험에 직면하고 있지만 버몬트, 버지니아 및 캘리포니아와 같은 주에서는 화재위험이 더 높은 것으로 나타났다. 이에 따라 그림 3a(평균온도-F), 3b(평균풍속-MPH), 3c(강수량-inch)에 설명된 각 비교자료에 대해 개별적으로 존재하는 두 데이터를 비교하여 해당 날짜의 화재사건과 날씨와의 상관관계를 분석했다. 그림 3a는 화재가 발생한 날에 더 높은 온도가 관찰되었음을 보여준다.

데이터 합병 이전에 관측된 평균 기온은 53.4℉였으며, 합병 후는 16% 증가한 62.1℉까지 올라갔다. 그림 3(b)에서와 같이, 화재사고가 없는 날과는 대조적으로 화재사고가 발생한 날에 관측된 풍속은 시간당 8.2마일에서 7.5마일로 8%가 감소하였다. 평균 강수량은 그림 3(c)에 묘사된 것과 같이, 반대의 경우와는 대조적으로, 화재발생 일수에 대한 데이터를 고려할 때 0.118에서 0.07인치로 41% 감소한다. 그림 3(a)~3(c)는 결합된 데이터를 분석할 때 강수량이 가장 큰 변화를 보이는 속성임을 보여준다. 또한 강수량 분포의 표준편차(그림 3c)도 0.335(화재자료 미포함)에서 0.289(화재자료 포함)로 14% 감소한 반면, 평균 기온(그림 3a) 및 평균풍속(그림 3b)의 경우, 그 분포는 상당히 일정하게 유지되었다.

2.3. 데이터 준비

각 해당 화재위험에 예측변수를 일치시킨 두 데이터 자료를 병합하여 데이터 준비를 시작한다. 레이아웃 구조는 그림 4에 자세히 설명되어 있다. 왼쪽의 둥근 사각형은 프로세스에 사용된 NFIRS 데이터(화재발생 위치, 화재발생 후 손실 및 발생 날짜 등) 파일을 나타낸다. 오른쪽 실린더는 날씨 관련정보가 포함된 NOAA 데이터를 나타낸다. 포괄적인 데이터 자료는 NFIRS 데이터 파일을 병합하여 얻는데 수직 화살표 "a"로 표시된 공통키를 사용한다. 그런 다음 "b"로 표시된 공통키를 사용하여 날씨 데이터를 새롭게 만들어진 NFIRS 데이터 자료와 병합하여 포괄적인 병합 데이터 자료를 제공한다. 데이터를 정리하는 동안 삭제되는 유일한 항목은 null 값, 기본값 및 오류값(예: 문자열 자리의 단위문자 등)이 포함된 항목이다.

그다음은 예측 정확도가 가장 높은 최적의 훈련 데이터를 얻기 위해 순차적 선별과정을 수행한다. 모델 결과의 정확도를 높이는데 가장 큰 영향을 미치는 것은 레이블 열에서 중복항목을 제거하는 것이다. 훈련 자료에서 중복을 제거하는데 사용할 수 있는 두 가지 방법이 있다. 하나는 각 열에 존재하는 일반 중복을 제거하는 것이다. 그러면 상당한 양의 데이터 포인트가 감소한다. 두 번째 방법은 레이블 열에서만 존재하는 중복을 제거하는 것이다. 이 방법은 입력 열에는 많은 수의 중복 항목(예: 평균온도, 최대 온도, 최소 온도, 평균풍속 및 강수)이 존재하는 반면 라벨 열에는 중복항목이 몇 개만 있기 때문에 훨씬 더 효과적이다. 또한 이 방법을 사용하면 중복항목을 과도하게 제거하지 않고도 학습모델에 최대 데이터 포인트 수를 포함할 수 있다.

2.4. 모델

화재사고로 인한 손실 비율을 예측하기 위해 준비된 데이터에 GBT(Guelman, 2012) 기법을 구현했다. 앞에서 설명한 방법을 통해 우리가 설명한 각 속성이 화재위험에 어떻게 영향을 미치는지 더 잘 이해하고 배울 수 있다. "총 손실률(Total Percent Loss)"은 이 연구의 범주에서 화재위험의 목표값으로 사용된다. 왜냐하면 주 전체의 화재로 인한 손실을 비교할 때 이것의 정규화된 특성으로 인해 보다 나은 메트릭으로 작동하기 때문이다. GBT에서 얻은 결과물은 훈련 데이터의 품질과 모델의 예측 성능을 평가하는데 사용된다. R2*및 평균 제곱오차(MSE)**와 같은 통계 메트릭은 모델의 성능을 평가하는데 사용된다. * R2는 다음 같다. 여기서 SSE는 예측모델 주변의 실제 데이터에 대한 오차 제곱의 합이고, 제곱의 총합계인 SST는 그 평균 주변 종속 변수의 편차 제곱의 합이다. ** MSE는 전체 데이터 포인트에 대해서 데이터의 개수로 나누어진 예측변수와 실제변수의 차이에 대한 제곱의 합이다.

3. 데이터 분석

3.1. 날씨 분석

여기서는 날씨 데이터와 화재사고 데이터를 포함하는 두 종류의 자료를 분석하였다. 그림 5에서는 지리적으로 서로 다른 지역의 날씨 데이터 신뢰도를 검증하기 위해 각 주별 평균 기온을 분석하였다. 이 지리적 구분의 결과는 날씨 데이터 영역을 식별하여 화재위험을 예측하는데 도움을 준다. 예를 들어, 그림 5에서 온도 유사성 영역은 지역별(동서남북) 또는 주별로 나눌 수 있다. 그림 5에서 북쪽 주변의 주와 남쪽 주변의 주 사이에는 분명한 차이가 있음을 알 수 있다.

또한 여름과 겨울 두 계절에 걸친 화재위험을 비교하여 그림 6(a), 6(b)에서 보이는 것과 같이 시기에 따른 차이를 확인하였다. 여기서 대부분의 주는 비슷한 평균온도를 가지고 있음을 관찰할 수 있다. 이 두 지도는 데이터의 품질을 판단하는데 도움이 된다. 그림 6(a), 6(b)의 화재위험 지도와 그림 7의 지역 물가 공정률(RPP)에서 볼 수 있듯이, 우리가 산출한 손실이 주 단위의 절대값이어야 한다는 것을 알 수 있다. 여기서는 해결해야 할 두 가지 중요한 장애물이 있다. 첫 번째는 그림 6(a), 6(b)에서 볼 수 있듯이 화재 위험도가 계절(여름과 겨울)에 따라 변하지 않는 지역에서 화재위험의 계절적 영향이다. 두 번째는 각 주(State)별 통화 가치의 차이이다.

3.2. 국가 내 화폐가치의 효과

실제로 화폐 가치는 각각의 주 전체에서 동일하지 않다. 그림 7에서 우리는 BEA(Bureau of Economic Analysis)에서 발표한대로 2015년에 여러 주의 지역물가 공정률(RPP)을 볼 수 있다. RPP는 주 단위 또는 대도시 간의 구매력을 표준 국가 구매력과 개별적으로 비교하기 위해 사용되는 단위이다(Bureau of Economic Analysis, n.d). 또한 주 전체의 소득 증가율이 고르지 않아 생산품의 가치가 다른 것을 의미한다. 더욱이 물가상승률은 소비자 물가지수(CPI)를 기반으로 계산되며, 이는 또한 연간 주 간의 통화가치 차이를 알려준다. 따라서 이러한 문제를 해결하기 위해 사고가 발생한 특정 연도를 기준으로 CPI 차이를 고려하고 지리적 구분을 주 단위로 분할하였다.

3.3. 속성 조정

앞서 언급한 문제를 해결하는 데 사용되는 해결책은 훈련 데이터를 수정하는 것이다. 첫 번째 조정은 지리적 식별거리를 지역 수준에서 주 수준으로 변경하는 것이다. 이것은 날씨와 화폐가치 사이의 각 주 단위별 변수를 설명한다. 두 번째 조정은 계절별이 아닌 월별 화재사고를 기록하는 것이다. 분석 변화의 차이는 그림 8(a), 8(b)에서 설명하였다. 그림 8(a)가 보여주는 계절별 평균 손실은 매우 유사하지만 월별 분석에서는 그림 8(b)와 같이 상당한 변동을 나타낸다.

3.4. 총 손실률 계산

훈련 데이터에 수정사항을 추가해도 문제가 여전히 남아 있다. 시스템의 현재 문제로는 예측된 화재위험은 주(State)별로 비교는 가능하지만 화재위험 값이 정규화되지 않은 전국적인 모양은 여전히 맞지 않는다는 것이다. 이 문제에 대한 해결책은 잠재적 손실률을 계산하는 것인데, 이 비율을 재산과 내용물의 총 가치로 곱하여 잠재적 손실을 추정하는 것이다. 여기서 손실률은 재산과 내용물의 절대 손실을 합산하여 재산과 내용물의 절대 가치의 합으로 나눈 값입니다. 마지막으로 이 숫자에 100을 곱하고 화재위험으로 반환한다. 그런 다음 이 값을 NFIRS에서 얻은 총 값과 곱하여 절대 손실을 계산한다.

처리 과정은 그림 9에 요약되어 있다. 이제 예측모델에서 직면한 문제를 해결하는 방향으로 이동한다. 예측모델로 들어가기 위해 훈련 데이터에서 상태와 날짜(월)를 두 개의 개별 속성으로 사용하고, 이 두 가지 속성을 기반으로 데이터를 분류하였다. 지도(그림 6a, 6b, 7)에서 각 주마다 날씨 차이와 화재로 인한 손실이 나타난다. 다른 시간분류에 의한 두 개의 도표(그림 8a, 8b)를 통해, 일년 중 시기(월)는 화재위험 추정치(특히 월평균 총 손실량의 변화)에 큰 영향을 미친다는 것을 알 수 있다.

3.5. 속성 선택

훈련 데이터를 공식화하는데 사용할 수 있는 모든 잠재적 후보 변수를 사용하여 그림 11과 같은 가중치 인자 플롯과 표 1에 설명된 상관 행렬을 생성한다. 그림 10에서는 기상데이터, 상태 및 날짜에 대한 각 속성이 화재 위험성 분류의 단계 예측에 대한 기여도를 확인할 수 있다. 이 가중치 테스트는 훈련 데이터를 공식화하기 위해 사용된 일부 요인들을 좁히는데 도움이 된다.
그림 10에 표시된 가중치 인자와는 별도로, 각 속성이 서로 어떻게 상관되는지 식별하는 데 도움이 되는 상관 행렬도 생성한다. 또한 상관 행렬을 사용하여 전체 훈련 데이터를 공식화하면서 줄일 수 있는 특성을 구별한다. 그림 10에 표시된 가중치 요인 테스트와 표 1에 표시된 상관 행렬 테스트의 모든 속성은 결과치에 대한 기여도가 0% 이상이거나 상관관계에서 0이 아닌 값을 갖는 속성이다.

이를 최종 훈련 데이터 자료에 포함할 속성으로 마무리한다. 상관 행렬은 개념적으로 그림 10에 표시된 가중치 요인 플롯과는 다르다. 주요 차이점은 각 속성 간 관계의 개수이다. 가중치 요인 테스트의 경우 모든 가중치는 단일 유형의 관계를 기반으로 계산된다. 즉, 모든 속성이 개별적으로 총 손실률과 관련되어 있다. 그러나 상관 행렬에서 각 요인은 서로 관련되어 다중 관계를 형성한다.

4. 모델 및 결과

4.1. GBT(Gradient Boosting Tree-머신러닝 알고리즘)

이 연구에서는 예측모델을 만들기 위해 경사 부스팅 알고리즘(Friedman, 2001)을 사용한다. GBT는 통계적 기계학습 기술을 사용하는 분류 및 회귀 트리 유형의 하나이다. 경사 부스팅은 간단하게 매개 변수화되어 있는 함수를 순차적으로 적용하여 가법 회귀 모델을 구성한다. 반복할 때마다 현재 잔차와 다음 잔차를 기준으로하여 개선이 이루어진다(Friedman, 2002). GBT는 알고리즘이 학습 과정에 따라 각 노드에서 분류 결정을 내리는 조각별 구조를 포함하고 있다. 훈련 데이터의 모든 데이터 지점은 트리 구조를 통과하는 것으로 모델에서 평가된다.

트리 구조에서 그 값이 다양한 지엽(枝葉)을 통과하고 주어진 속성의 값에 기초하여 결정이 내려질 때 데이터의 분류가 생성된다. 알고리즘 모델 중에서 GBT는 예측의 정확도와 모델 해석의 목표를 모두 달성한다는 점에서 독특하다. 또한 이 방법은 데이터 전처리 및 매개 변수 조정이 거의 필요하지 않는다. GBT는 다양한 응답 분포의 분류 또는 회귀 문제에 적용할 수 있다. GBT 알고리즘에서 복잡한 상호작용은 모델링되고, 예측변수의 결측값과 같은 여러 복잡성은 거의 정보손실 없이 관리된다.

특성을 선택하는 것은 매개변수(예: 트리 구조물에 대한 반복 횟수, 학습 속도, 계층 수)와 훈련 데이터에 있는 각 속성의 고유한 조합에 의해 수행된다. 이 외에도 예측에는 기능적 형식이 부과되지 않으며, 트리를 구성하는 것에 있어서는 변수 간 상호작용이 허용된다(Elith, Leathwick, & Hastie, 2008). 이러한 속성을 통해 GBT는 저비용 예측 모델을 보장하는 좋은 후보로 고려될 수 있다(Guelman, 2012).

4.2. 데이터 분할 및 결과 검증

여기서는 전체 데이터 자료를 두 개의 하위 집합으로 분할한다. 즉, 모델을 훈련하기 위한 훈련 자료와 훈련된 모델의 성능을 테스트하기 위한 테스트 자료이다. 훈련 자료의 크기는 전체 데이터의 70%로 간주되어 전체 데이터 자료를 대표하고 통계적으로 의미 있는 결과를 산출할 수 있을 만큼 충분히 크다. 나머지 30%의 데이터는 훈련된 모델의 예측 성능을 평가하기 위한 테스트 자료로 사용된다. 예측모델의 정확성을 검증하기 위해 "k-fold 교차 검증"(James, Witten, Hastie, & Tibshirani, 2013; Kohavi, 1995) 알고리즘을 사용하였다. 이 알고리즘은 훈련 데이터를 k개의 동일한 크기를 갖는 상호 배타적인 부분 집합으로 나눈다. 모델은 k번 훈련되고 테스트 된다. 매번 k-1번 중첩을 하여 모델을 학습한 다음 나머지 중첩 부분에 대해서 테스트한다. 모델의 정확도는 R2 및 MSE 값과 같은 통계 메트릭을 사용하여 측정된다.

4.3. 결과

정확성과 해석 가능성은 예측 학습의 두 가지 중요한 목표이다. 그러나 이 두 가지 목표가 항상 일치하지는 않는다. 신경망 및 지원벡터 머신과 같이 매우 정확한 결과를 제공하는 다른 통계학습 방법과 달리, 경사 부스팅(Gradient Boosting) 알고리즘은 결과를 쉽게 해석할 수 있다. 해석을 위해 종종 유용하게 사용되는 중요한 척도는 결과값에 대한 입력변수의 상대적 영향력이다(Guelman, 2012).

GBT에서 사용되는 매개 변수값은 표2에 나와 있다. 구현된 모델에서 정확한 결과를 얻기 위해 반복 횟수를 최대로 설정했다. 또한 데이터의 과적합(overfitting)을 방지하기 위해 최대 깊이 및 최소 행의 값을 각각 10과 1로 설정했다. 또한 표2는 구현된 모델의 통계결과를 보여준다. 훈련 자료의 데이터 포인트는 R2값 0.933과 MSE값 124.641에 적합함을 확인할 수 있다. 실험에서 라벨값이 0에서 100까지 측정되기 때문에 최대 MSE는 10,000이 된다. 관찰된 MSE와 최대 MSE를 비교해보면 모델 결과의 오류가 매우 적어 그 성능이 우수함을 확인할 수 있다. 그림 11은 예측모델의 계산 과정을 분석하기 위해 MSE(평균제곱오차)에 대한 반복 횟수를 보여준다. 이 그림은 음의 선형 관계를 보여준다. 즉, 반복 횟수가 증가하면 MSE는 선형적으로 감소하는 것이다. 이제 반응 변수의 값을 예측하기 위해 테스트 데이터 집합에 모형을 구현시킨다. 그런 다음 예측된 값은 그림 12에 표시된 것처럼 NFIRS에서 직접 가져온 실제 값과 비교할 수 있다. 이 그림에서 실제손실인 R2값 0.9765는 예측된 손실값과 높은 일치율을 보이는 것을 관찰할 수 있다.

4.4. 추론

표3에서 데이터는 생성된 모델에 영향을 주고 있으며, 여기에 사용된 각각의 변수는 통계적 유의성이 있음을 보여준다. 사고가 접수된 상태가 가중치의 큰 비중을 차지하고, 비슷한 중요성을 가진 두 가지(발생 월과 평균풍속)가 그다음 비중을 나타내고 있다. 이 속성에서 강수량은 가장 적은 비중을 차지하며, 각 온도 속성은 유사한 중요성을 갖는다.

해당 주는 화재위험을 결정하는 데 중요한 역할을 한다. 환경적 조건, 풍부한 가연물 및 생활비 수준으로 인해, 섹션2에 명시된 대로 일부 주에서는 다른 주에 비해 화재로 인한 손실이 더 많이 발생하는 경향이 있다. 날씨와 직접적으로 관련된 각 변수의 영향은 아주 심오하다. 온도는 화재의 시작 및 확산 시 지속되도록 하는데 중요한 역할을 한다. 더 높은 온도라는 것은 결국 더 높은 연료온도를 의미한다. 연료의 온도가 높을수록 인화점에 더 가까워지고 훨씬 더 도달하기가 쉽다. 반면 바람은 화재 확산에 중요한 역할을 한다. 바람은 연소 중인 화재로 공급되는 산소량을 늘리거나 줄이는 것에 영향을 줄 수 있으며, 가연물이 풍부한 방향으로 또는 반대 방향으로도 이동시킬 수 있다. 한편 강수량은 연료 온도도 제어하고 연료가 노출되는 수분의 양도 제어한다. 연료의 습기가 적을수록 연소하기가 더 쉬우며, 강수량은 온도의 하락을 의미하기 때문에 연료 온도에도 이것을 적용할 수 있다(Fire Science, n.d).

5. 결론

이 연구에서는 2005년부터 2014년까지 두 가지 데이터(NFIRS, NOAA)를 사용하고 미국 전역에서 발생한 약 4,700만 건의 화재사고를 분석했다. 또한 종합적인 데이터 자료를 얻기 위해서 GBT 알고리즘으로 구성된 예측모델에서 이러한 훈련 데이터를 사용하였다. 이 접근 방식을 통해 화재 관리자는 날씨 데이터, 화재발생 위치 및 시간을 사용하여 화재위험을 예측할 수 있다. 현재 모델의 예측 정확도는 93.3%이고 MSE는 124.641/10,000이다. 결과물에 대한 각 입력변수의 통계적 유의성을 분석하면서, 사고가 발생할 때의 상황은 화재위험을 결정하는데 중요한 역할을 한다는 것을 확인하였다.

※ 자료출처 :
https://onlinelibrary.wiley.com/doi/abs/10.1111/risa.13480 http://lps3.onlinelibrary.wiley.com.libproxy.ut.ac.kr/doi/abs/10.1111/risa.13480?

번역|김태훈. 한국소방안전원 정책연구소 연구원