본문 바로가기

메이플의 개발 스토리

[머신러닝] 데이터 전처리 - 표준점수 본문

ML DL

[머신러닝] 데이터 전처리 - 표준점수

mapled 2021. 12. 19. 21:57

안녕하세요. 메이플입니다.

해당 포스팅은 혼자 공부하는 머신러닝+딥러닝 책을 교재로 스터디한 내용을 정리한 내용입니다.

보다 자세한 내용은 책을 참고해주시기 바랍니다.


아래 포스팅과 이어지는 글입니다. 

 - [머신러닝 스터디] 인공지능, 딥러닝, 머신러닝이란?

 - [머신러닝 스터디] 맷플롯립을 통해 데이터의 산점도 출력

 - [머신러닝 스터디] numpy 패키지

 - [머신러닝 스터디] 사이킷런으로 K-NN 알고리즘

 - [머신러닝 스터디] 훈련 세트와 테스트 세트


머신러닝 키워드

- 데이터 전처리(data preprocessing) : 머신러닝 모델에서 훈련 데이터를 주입하기 전에 가공하는 단계

- 표준점수(standard score) : 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타냄

- 브로드캐스팅 : 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하여 수행하는 기능


kneighbors - 최근접 이웃

- kneighbors() : k- 최근접 이웃 객체의 메서드

새로운 데이터(25, 150)에 대한 최근접 이웃 5개가 무엇으로 선정되었는지 kneighbors 메서드를 통해 확인할 수 있다.

- xlim(), ylim() : 맷플롯립에서 x, y축 범위를 지정

스케일이 다른 특성 처리

샘플 간의 거리에 영향을 많이 받는 알고리즘의 경우 제대로 사용하기 위해서 특성값을 일정한 기준으로 맞춰주는 작업인 데이터 전처리를 해야 한다. 전처리 방법 중 가장 널리 사용되는 것은 표준점수이다.

'ML DL' 카테고리의 다른 글

[ML] 2-1 훈련 세트와 테스트 세트  (0) 2022.01.08
[ML] 1-3 마켓과 머신러닝  (0) 2022.01.08
[머신러닝] 훈련 세트와 테스트 세트  (0) 2021.12.19
[머신러닝] 사이킷런 K-NN 알고리즘  (0) 2021.12.19
numpy 패키지  (0) 2021.12.19
Comments