머신러닝

Data Wrangling

lazy_marcie 2023. 12. 12. 11:13

☑️ Data Wrangling

All the activity that you do on the raw data to make it “clean” enough to input to your analytical algorithm is called data wrangling or data munging. — Shubham Simar Tomar 2016

→ 데이터 수집부터 데이터를 정제 등 모델에 데이터를 활용하기 전의 모든 과정을 포괄적으로 다루는 과정 

 

☑️ Data Wrangling 과정

 

데이터 수집

  • OpenAPI
  • 크롤링: BeautifulSoup, Selenium
  • 캐글 등의 경진대회 사이트
📌 API(Application Programming Interface)란, 프로그램들 간 데이터를 주고 받는 수단이나 방법 등을 의미한다.

 

데이터 탐색(EDA)

일반적으로 원시 데이터 그 자체만으로는 특별한 인사이트를 얻기가 쉽지 않다. 따라서 EDA를 통해 데이터를 바라보는 관점을 달리하여 데이터의 문제를 파악하고 데이터를 전처리하는 방법이나 데이터를 활용할 수 있는 방법 등의 인사이트를 얻을 수 있다. 일반적으로 EDA는 시각화, 비시각화 방법이 존재한다.

 

  • Graphic(시각화): 데이터 유형에 맞춰 데이터를 여러 가지 그래프로 시각화해보는 것
  • Non-Graphic(비시각화): pandas를 활용하여 데이터에 대한 전반적인 정보를 요악하는 것  ex) 통계, 결측치, 데이터 형식
💡EDA는 언제 진행하는가?
- 전처리 이전 EDA: 데이터 전처리 이전에 데이터를 탐색하고 이해하는 EDA를 수행합니다. 이 단계에서 데이터의 분포, 이상치, 결측치 등을 파악하여 전처리 과정에 반영할 수 있습니다. 이를 통해 어떤 종류의 전처리가 필요한지 결정하고, 전처리 방법을 결정하는 데 도움을 줍니다.

- 전처리 후 EDA: 데이터 전처리를 마친 후에도 EDA 단계를 반복적으로 수행하는 것이 좋습니다. 왜냐하면 전처리로 인해 데이터의 분포나 특성이 변경될 수 있기 때문입니다. 이 과정을 통해 전처리가 올바르게 이루어졌는지 검증하고, 모델링에 적합한 데이터를 확보합니다.

 

데이터 전처리

📌데이터 전처리 관련 포스트

GIGO라는 말이 있을정도로 머신러닝은 입력된 데이터의 품질에 영향을 많이 받는다. 따라서 원본 데이터를 필요에 따라 정제하는 과정이 필요하다. 

  • 데이터 정제
  • 데이터 인코딩
  • 데이터 스케일링
  • Feature Engineering

 

데이터 분할

주어진 데이터를 train, test 데이터로 나누는 과정을 의미한다. 경우에 따라 validation 데이터를 추가적으로 구분하기도 한다.

 

 

🔗 참고자료

'머신러닝' 카테고리의 다른 글

데이터 분할  (1) 2023.12.26
Data Preprocessing  (0) 2023.12.12
머신러닝 개요  (0) 2023.12.12
N122 - 중심극한정리  (0) 2023.09.04
N121- 확률 및 베이즈 정리  (0) 2023.08.28