1 분 소요

Multiple Regression

여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 방법중 하나이다.

Evaluation Metrics

  • MSE Mean Squared Error

    평균제곱오차, 오차를 제곱한 값의 평균으로, 알고리즘이 예측한 값과 실제 정답과 차이를 의미한다. MSE값이 0에 가까울수록 좋은 모델이다.

  • MAE Mean Absolute Error

    평균절대오차, 회귀평가를 위한 지표로 주로 사용되고 0에 가까울수록 좋은 모델이다.

  • RMSE Root Mean Squared Error

    평균제곱근오차, 선형회귀에서 많이 쓰이는 방식중 하나로 평균제곱오차가 가끔 너무 커져버리는 경우가 많다. 이런 경우 연산속도가 매우 느린데 이때 루트를 씌워서 해결해준다. 이 방식을 최소화하는 기울기 a와 회귀상수 b를 찾는다!

과적합 (Overfitting)과 과소적합 (Underfitting)

일반화란?
학습 데이터와 입력값이 달라져도 출력에 대한 성능 차이가 나지 않게 하는 것을 일반화라고 한다.
  • 과적합이란 모델이 훈련 데이터에만 과하게 학습해 일반화를 모해 테스트 데이터에서 오차가 커지는 현상을 말한다.
  • 과소적합이란 훈련데이터에 과적합도 못하고 일반화 성질도 학습하지 못하고 테스트 데이터에도 오차가 크게 나는 총체적 난국인 현상을 말한다.

분산과 편향, 트레이드 오프

  • Variance (분산)

      분산이란 말 그대로 데이터들이 퍼져있는 상태를 말한다. 지나치게 복잡한 모델에서 많이 나오는 에러중 하나이다. 그렇기에 분산이 크면 클수록 훈련 데이터에 집착하게 되는 Over-Fitting이 일어난다.
      분산이 큰 모델은 지나치게 적합을 시켜 일반화가 잘 되지않는 모델이기도 하다.
    
  • Bias (편향)

      편향은 분산과 달리 지나치게 단순한 모델로 데이터가 한곳에 밀집되어 있는 것을 말한다. 편향이 클수록 Under-Fitting을 일어나게 된다. 
      모델에 편향이 크다는 것은 해당 모델이 중요한 요소를 놓쳤을 가능성이 있다는 것을 뜻한다.
    
  • Bias - Variance Trade-off

      위의 분산과 편향은 트레이드 오프 관계에 있다. 서로의 연관관계는 모델과 연관성이다.
      모델이 복잡할 수록 편향은 작아지고, 분산은 증가하여 over-fitting이 된다.
      모델이 단순할 수록 편향은 증가하고, 분산은 작아져서 under-fitting이 된다.
    
    • 우리가 해결해야하는 문제는 오류를 최소화하기위해 편향과 분산의 합이 최소가 되는 적절한 지점을 찾는것이다.