[파이썬][머신러닝] 데이터 분석과 머신러닝 - Metrics
Data Wrangling
모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정
- 데이터 랭글링은 다양한 데이터 소스의 데이터를 통합하고 엑세스, 분석할 수 있도록 정리하는 하나의 프로세스이다.
데이터 랭글링의 순서
- 데이터 수집 및 이해
프로젝트또는 원하는 목적에 알맞는 데이터를 수집하고 해당 데이터에 대해서 이해한다.
- 데이터 구조화
데이터를 구조화하여 필요없는 행 또는 컬럼등을 삭제하여 분석에 용이한 형태로 바뀌주는 작업을 진행한다.
- 데이터 클렌징
데이터의 이상치나 결측치를 발견하고 처리하여 해당 데이터의 품질을 향상시킨다.
- 데이터 정제
데이터를 사용하기 위해 정제하는 작업이다. 해당 작업과정에서 데이터의 양 또는 품질을 재점검한다.
- 데이터 검정
데이터의 분포를 검정하고 최종적으로 모델에 사용하기 전에 확인하는 단계이다.
- 데이터 실사용
데이터 분석 모델에 넣어주는 과정이다.