PIP (문제해결프로젝트)

데이터사이언스를 통한 당면 과제의 솔루션 구하기
문제해결 프로젝트는 팀단위로 문제를 스스로 해결하는 과정을 담고 있습니다.

자연어 처리를 통한 사고내용 상세분석 - 네트워크팀

작성자
DaeSeo
작성일
2017-01-12 14:57
조회
358

1. 팀 소개


1.1 팀명


  • 네트워크


 

1.2 팀원


  • 임진우, 이혜련, 노경희


 

2. 프로젝트 소개


2.1 데이터 분석 주제


  • 자연어 처리를 통한 사고내용 상세분석

  • 분석에 쓰기 어려운 데이터가 많으며 그에 따라 분석에 활용할 데이터가 적음

  • 교통사고 데이터 중 사고내용(상황) 속성을 사용하지 못하였기에 NLP를 통하여 해당 속성을 정형화 하여 분석


2.2 데이터의 종류 및 특징


  • 교통사고 데이터의 사고내용(상황) 데이터


2.3 데이터 분석 도구 및 기법


  • 분석 도구 : Tableau, Python

  • 분석 전략
    • 사고내용 데이터 정형화를 통한 더 많은 속성 산출

    • 더 자세해진 데이터를 가지고 사망자를 도출한 상황이 사망자를 도출하지 않은 상황과 어떤 것이 다른지 확인

    • 전체 사고건수에서 극 소수로 등장하는 단어를 제거하여 의미없는 결과 도출 차단


  • 분석 기법
    • 파이썬 Konlpy를 통해 비정형 데이터 -> 반정형 데이터 변환

    • 불용어, 동의어 처리

    • 단어 무게 추출



 

2.4 프로젝트 일정


  • 2016.10.04 ~ 2016.10.13 : 문제 정의

  • 2016.10.14 ~ 2016.11.17 : 전략 수립, 분석기법 연구, 데이터 정제

  • 2016.11.18 ~ 2016.12.14 : 데이터 분석 및 분석자료 정리

  • 2016.12.15 ~ 2016.12.29 : 최종 자료 정리 및 논문 작성

2.5 프로젝트 수행 성과


  • 이전 데이터 및 제도 개선 전까지의 데이터에서 정확한 추락사고 데이터를 산출하기 위해 추락, 아래, 하천, 이탈, 배수로, 전복과 같은 데이터가 들어가있는 데이터를 추락사고로 간주하면 더 많은 추락사고 건을 추출해 낼 수있음

  • 필요하거나, 궁금한 속성을 새로 추출하는 것이 가능

  • 예를 들어, 해당 데이터에서 뺑소니 사고인지 아닌지를 알려주는 속성하나를 추가하고자 할 때, 도주’, ‘미상’, ‘번호불상등의 뺑소니 관련 단어들이 있는지 없는지를 판단하여 해당 속성을 추출 할 수 있음