최대 1 분 소요

Data Wrangling

모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정

  • 데이터 랭글링은 다양한 데이터 소스의 데이터를 통합하고 엑세스, 분석할 수 있도록 정리하는 하나의 프로세스이다.

데이터 랭글링의 순서

  1. 데이터 수집 및 이해

    프로젝트또는 원하는 목적에 알맞는 데이터를 수집하고 해당 데이터에 대해서 이해한다.

  2. 데이터 구조화

    데이터를 구조화하여 필요없는 행 또는 컬럼등을 삭제하여 분석에 용이한 형태로 바뀌주는 작업을 진행한다.

  3. 데이터 클렌징

    데이터의 이상치나 결측치를 발견하고 처리하여 해당 데이터의 품질을 향상시킨다.

  4. 데이터 정제

    데이터를 사용하기 위해 정제하는 작업이다. 해당 작업과정에서 데이터의 양 또는 품질을 재점검한다.

  5. 데이터 검정

    데이터의 분포를 검정하고 최종적으로 모델에 사용하기 전에 확인하는 단계이다.

  6. 데이터 실사용

    데이터 분석 모델에 넣어주는 과정이다.