[파이썬][머신러닝] 데이터 분석과 머신러닝 - Multiple Regression
Multiple Regression
여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 방법중 하나이다.
Evaluation Metrics
-
MSE Mean Squared Error
평균제곱오차, 오차를 제곱한 값의 평균으로, 알고리즘이 예측한 값과 실제 정답과 차이를 의미한다. MSE값이 0에 가까울수록 좋은 모델이다.
-
MAE Mean Absolute Error
평균절대오차, 회귀평가를 위한 지표로 주로 사용되고 0에 가까울수록 좋은 모델이다.
-
RMSE Root Mean Squared Error
평균제곱근오차, 선형회귀에서 많이 쓰이는 방식중 하나로 평균제곱오차가 가끔 너무 커져버리는 경우가 많다. 이런 경우 연산속도가 매우 느린데 이때 루트를 씌워서 해결해준다. 이 방식을 최소화하는 기울기 a와 회귀상수 b를 찾는다!
과적합 (Overfitting)과 과소적합 (Underfitting)
일반화란?
학습 데이터와 입력값이 달라져도 출력에 대한 성능 차이가 나지 않게 하는 것을 일반화라고 한다.
- 과적합이란 모델이 훈련 데이터에만 과하게 학습해 일반화를 모해 테스트 데이터에서 오차가 커지는 현상을 말한다.
- 과소적합이란 훈련데이터에 과적합도 못하고 일반화 성질도 학습하지 못하고 테스트 데이터에도 오차가 크게 나는 총체적 난국인 현상을 말한다.
분산과 편향, 트레이드 오프
-
Variance (분산)
분산이란 말 그대로 데이터들이 퍼져있는 상태를 말한다. 지나치게 복잡한 모델에서 많이 나오는 에러중 하나이다. 그렇기에 분산이 크면 클수록 훈련 데이터에 집착하게 되는 Over-Fitting이 일어난다. 분산이 큰 모델은 지나치게 적합을 시켜 일반화가 잘 되지않는 모델이기도 하다.
-
Bias (편향)
편향은 분산과 달리 지나치게 단순한 모델로 데이터가 한곳에 밀집되어 있는 것을 말한다. 편향이 클수록 Under-Fitting을 일어나게 된다. 모델에 편향이 크다는 것은 해당 모델이 중요한 요소를 놓쳤을 가능성이 있다는 것을 뜻한다.
-
Bias - Variance Trade-off
위의 분산과 편향은 트레이드 오프 관계에 있다. 서로의 연관관계는 모델과 연관성이다. 모델이 복잡할 수록 편향은 작아지고, 분산은 증가하여 over-fitting이 된다. 모델이 단순할 수록 편향은 증가하고, 분산은 작아져서 under-fitting이 된다.
- 우리가 해결해야하는 문제는 오류를 최소화하기위해 편향과 분산의 합이 최소가 되는 적절한 지점을 찾는것이다.