PIP (문제해결프로젝트)

데이터사이언스를 통한 당면 과제의 솔루션 구하기
문제해결 프로젝트는 팀단위로 문제를 스스로 해결하는 과정을 담고 있습니다.

기상 요인에 따른 교통사고 분류 분석 - 의사결정트리팀

작성자
DaeSeo
작성일
2017-01-12 15:06
조회
398

1. 팀 소개


1.1 팀명


  • 의사결정트리


 

1.2 팀원


  • 김완중, 신승철, 황예진, 이예림


 

2. 프로젝트 소개


2.1 데이터 분석 주제


  • 기상 요인에 따른 교통사고 분류 분석

  • 교통사고비용과 같은 불필요한 인명적, 사회적 비용을 줄이기 위해서는 지속적인 연구 필요

  • 다양한 기상요인들을 추가로 활용하여 강원도 내 교통사고를 경상사고와 중상사고로 분류


2.2 데이터의 종류 및 특징


  • 교통사고 데이터
    • 주야

    • 지자체

    • 사고구분

    • 시간대

    • 차량종별


  • 종관기상관측 데이터
    • 기온

    • 강수량

    • 풍속

    • 풍향

    • 습도

    • 현지기압

    • 일조

    • 지면온도



2.3 데이터 분석 도구 및 기법


  • 분석 도구 : SPSS

  • 분석 전략
    • SPSS 모델러를 이용해 교통사고 데이터를 연도별로 나눔

    • 균등노드를 통해 경상사고와 중상사고의 비율을 1:1로 설정 후 학습 시행

    • 가지치기 심각도/하위분기 최소레코드 수를 변화하여 정확도 측정

    • 위 과정을 K-fold cross validation을 통해 연도별로 수행


  • 분석 기법
    • 의사결정나무

    • K-fold Cross Validation



 

2.4 프로젝트 일정


  • 2016.10.04 ~ 2016.10.13 : 문제 정의

  • 2016.10.14 ~ 2016.11.17 : 전략 수립, 분석기법 연구, 데이터 정제

  • 2016.11.18 ~ 2016.12.14 : 데이터 분석 및 분석자료 정리

  • 2016.12.15 ~ 2016.12.29 : 최종 자료 정리 및 논문 작성

2.5 프로젝트 수행 성과


  • 다양한 기상요인에 의해 경상사고와 중상사고의 특징 구분이 가능함을 보임. 기상요인 중 풍속과 기온이 사고구분에 있어 가장 큰 중요도를 차지

  • 원래 기상 data의 속성은 25개지만 실제 사용 속성은 8개에 불과. 이처럼 관측소에서 측정이 되지 않는 속성들이 다수 존재

  • 따라서 행정구역마다 통일된 속성의 관측자료를 제공 받을 수 있다면 시정거리, 적설량, 지면상태, 전운량 등 다양한 기상요인을 추가로 활용하여 분석이 가능할 것으로 기대됨