Misson
- 진도: Chapter 03
- 기본 미션: Ch.03(03-1) 2번 문제 출력 그래프 인증하기
- 선택 미션: 모델 파라미터에 대해 설명하기
지도학습 알고리즘
- 분류(Classification)
주어진 데이터를 정해진 카테고리(Label)에 따라 분류하는 문제 (이진 분류, 다중 분류)
- 회귀(Regression)
어떤 데이터들의 Feature를 기준으로 연속된 값을 예측하는 문제
k-최근접 이웃 회귀(K-NN, K-Nearest Neighbor Regression)
sklearn.neighbors.KNeighborsRegressor
샘플에 가까운 이웃 샘플 K개를 선택하고 이 샘플들의 수치들의 평균을 구하여 새로운 샘플의 target 값을 예측
한계
- 데이터가 충분하지 않으면 새로운 관측치와의 거리를 측정해야 하므로 계산 시간이 오래 걸림
- 데이터가 부족할 때, 새로운 관칙치가 학습 범위를 넘을 경우 예측값이 빗나갈 가능성이 농후함
- 고차원 데이터에는 잘 동작하지 않음 (차원이 커질수록 거리측도의 유효성이 떨어짐)
- 많은 문제에서 메모리 요구사항, 처리시간, 성능 면에서 한계가 명확함 (실제 적용하기 어려움)
결정계수($R^2$)
최소제곱법을 활용한 선형회귀분석에서 종속변수의 분산 중에 독립변수로 설명이 되는 비율
즉, 통계 모델로 대상을 얼마나 잘 설명할 수 있는가를 숫자로 나타낸 것
1에 가까울 수록 좋은 모델, 0에 가까울 수록 성능이 나쁜 모델