1 분 소요

신뢰구간이란?

  • 통계적 추론을 통해 예측되는 값의 범위를 말한다.

    데이터분석에서 신뢰도가 높을 수록 해당 문제 측정의 결과가 일관성을 가진다는 의미다.

  • 즉, 신뢰도가 95% 라는 의미는 표본을 100번 뽑았을 때 95번은 신뢰 구간에 모집단의 평균이 포함된다는 뜻이다.

ANOVA(one-way)

  • 쉽게 세 개 이상의 집단의 차이를 통계적으로 검정하는 방법

    두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법
    -[출처: 위키피디아]

  • T-test는 독립변수가 하나이고 표본이 2개일 때 한정하여 사용되는데 예를 들어 특정 문제를 해결할 수 있는 그룹의 정확도가 해결할 수 없는 그룹의 정확도보다 높을 것인가? 라는 질문을 통계적으로 대답하는 것이 t-test이다.
    • 그런데 예를 들어 1번, 2번, 3번 … 문제를 해결할 수 있는 그룹의 정확도중 어떤 그룹이 제일 높은지 확인하는 것 같은 경우 독립 변수가 무수히 많아지게 되며, t-test를 사용할 경우 반복시행이 되고 1종 오류를 범하는 것을 막기 위해 유의 수준을 보정해줘야한다.

      이 문제를 해결하기 위한 해결법이 ANOVA이다.

ANOVA의 사용조건

  • t-test와 동일하게 관측치가 정규분포를 따라야함
  • 구형성(등분산 가정)을 만족해야함
  • 표본이 독립적이어야함
    • 비독립 표본인 경우 사용하지 않음

Many Samples

  1. 큰 수의 법칙 (Law of large numbers)
    • 샘플 데이터의 수가 커질 수록, 샘플의 통계치는 점점 모집단의 모수와 같아진다.
  2. 중심극한정리 (Central Limit Theorem, CLT)
    • 샘플 데이터 수가 커질 수록, 샘플의 평균은 정규분포에 근사한 형태를 나타낸다.