[파이썬][머신러닝] 데이터 분석과 머신러닝 - Multiple Regression

1 분 소요

Multiple RegressionPermalink

여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 방법중 하나이다.

Evaluation MetricsPermalink

MSE Mean Squared Error

평균제곱오차, 오차를 제곱한 값의 평균으로, 알고리즘이 예측한 값과 실제 정답과 차이를 의미한다. MSE값이 0에 가까울수록 좋은 모델이다.
MAE Mean Absolute Error

평균절대오차, 회귀평가를 위한 지표로 주로 사용되고 0에 가까울수록 좋은 모델이다.
RMSE Root Mean Squared Error

평균제곱근오차, 선형회귀에서 많이 쓰이는 방식중 하나로 평균제곱오차가 가끔 너무 커져버리는 경우가 많다. 이런 경우 연산속도가 매우 느린데 이때 루트를 씌워서 해결해준다. 이 방식을 최소화하는 기울기 a와 회귀상수 b를 찾는다!

과적합 (Overfitting)과 과소적합 (Underfitting)Permalink

일반화란?
학습 데이터와 입력값이 달라져도 출력에 대한 성능 차이가 나지 않게 하는 것을 일반화라고 한다.

과적합이란 모델이 훈련 데이터에만 과하게 학습해 일반화를 모해 테스트 데이터에서 오차가 커지는 현상을 말한다.
과소적합이란 훈련데이터에 과적합도 못하고 일반화 성질도 학습하지 못하고 테스트 데이터에도 오차가 크게 나는 총체적 난국인 현상을 말한다.

분산과 편향, 트레이드 오프Permalink

Variance (분산)

  분산이란 말 그대로 데이터들이 퍼져있는 상태를 말한다. 지나치게 복잡한 모델에서 많이 나오는 에러중 하나이다. 그렇기에 분산이 크면 클수록 훈련 데이터에 집착하게 되는 Over-Fitting이 일어난다.
  분산이 큰 모델은 지나치게 적합을 시켜 일반화가 잘 되지않는 모델이기도 하다.

Bias (편향)

  편향은 분산과 달리 지나치게 단순한 모델로 데이터가 한곳에 밀집되어 있는 것을 말한다. 편향이 클수록 Under-Fitting을 일어나게 된다. 
  모델에 편향이 크다는 것은 해당 모델이 중요한 요소를 놓쳤을 가능성이 있다는 것을 뜻한다.

Bias - Variance Trade-off

  위의 분산과 편향은 트레이드 오프 관계에 있다. 서로의 연관관계는 모델과 연관성이다.
  모델이 복잡할 수록 편향은 작아지고, 분산은 증가하여 over-fitting이 된다.
  모델이 단순할 수록 편향은 증가하고, 분산은 작아져서 under-fitting이 된다.

우리가 해결해야하는 문제는 오류를 최소화하기위해 편향과 분산의 합이 최소가 되는 적절한 지점을 찾는것이다.

Twitter Facebook LinkedIn

You Nicholas

[파이썬][머신러닝] 데이터 분석과 머신러닝 - Multiple Regression

Multiple RegressionPermalink

Evaluation MetricsPermalink

과적합 (Overfitting)과 과소적합 (Underfitting)Permalink

분산과 편향, 트레이드 오프Permalink

공유하기

참고

[Arch Linux] yay 설치해서 편하게 라이브러리 설치하는 방법

[JAVA] 스프링 순환 종속성 문제

[JAVA] 자바가 파이썬과 다른 첫번째 이유

[JAVA] 프로그래밍 언어의 기본