본문 바로가기
자격증/빅데이터분석기사

[P02CH02S02] 추론통계

by rnasterofmysea 2025. 3. 16.
728x90
반응형

PART02: 빅데이터 탐색

CHAPTER02: 데이터 탐색

 

[P02CH02S02] 추론통계 


통계적 추론 및 가설검정에 대한 핵심 개념을 잘 정리해 주셨습니다. 이를 바탕으로 보충 설명과 함께 각 개념을 좀 더 체계적으로 정리해드리겠습니다.


1. 통계적 추론 (Statistical Inference)

통계적 추론은 모집단의 특성을 알기 위해 표본을 사용하여 추측하는 과정입니다. 크게 추정(Estimation)가설검정(Hypothesis Testing) 으로 나뉩니다.

(1) 추정 (Estimation)

  • 모집단의 특성을 추정하는 과정입니다.
  • 표본평균을 이용하여 모집단 평균을 추정하거나, 신뢰구간을 계산하여 추정의 신뢰도를 평가할 수 있습니다.

(2) 가설검정 (Hypothesis Testing)

  • 모집단의 특정한 주장이 참인지 여부를 검정하는 과정입니다.
  • 귀무가설과 대립가설을 설정하고 표본을 통해 가설의 타당성을 평가합니다.

 


2. 점추정 (Point Estimation)

모수(parameter)의 값을 하나의 단일 값으로 추정하는 방법입니다.

 

 

(1) 추정량의 선택 기준

추정량이 좋은 추정량인지 판단하는 기준은 다음과 같습니다.

  • 불편성 (Unbiasedness): 추정량의 기대값이 모수의 실제값과 같아야 합니다.
  • 효율성 (Efficiency): 동일한 모수를 추정하는 여러 추정량 중에서 분산이 가장 작은 추정량이 효율적입니다.
  • 일치성 (Consistency): 표본의 크기가 증가할수록 추정량이 모수에 수렴해야 합니다.
  • 충분성 (Sufficiency): 주어진 표본에서 모수를 추정하는 데 있어 가능한 많은 정보를 포함하는 추정량을 사용해야 합니다.

 

(2) 점추정의 방법

-  점추정: 모집단의 특성을 단일값으로 추정(특정)하는 것을 의미

 

  • 적률추정법 (Moment Method): 확률변수의 적률(moment)을 이용하여 모수를 추정하는 방법입니다.
    • 적률: 양수 n에 대해 확률 변수 X^n의 기대값 E(X^n)을 확률변수 X의 원점에 대한 n차 적률이라고 합니다.
  • 최대우도추정법 (Maximum Likelihood Estimation, MLE): 주어진 데이터를 가장 잘 설명하는 모수 값을 찾는 방법입니다.
    • 우도: 데이터가 관측된 상태에서 특정 확률분포에 대한 어떤 강도를 나타내는 값

 

(3) 불편추정량 & 편향

  • 불편추정량: 추정량의 기대값이 모수와 동일하면 불편추정량이라 합니다.
    • 예: 표본평균은 모평균의 불편추정량입니다.
    • 하지만, 표본분산은 모집단 분산의 불편추정량이 아닙니다. (n 대신 n-1로 나누어 조정해야 함)
  • 평균제곱오차 (MSE, Mean Squared Error): MSE=E[(θ^−θ)2]MSE = E[(\hat{\theta} - \theta)^2]
    • 추정량의 편향과 분산을 모두 고려하는 평가 지표입니다.

 


3. 구간추정 (Interval Estimation)

점추정이 단일 값으로 모집단의 특성을 추정하는 것이라면, 구간추정은 특정 신뢰수준 하에서 모집단의 특성이 포함될 수 있는 범위

를 제시하는 방법입니다. 즉, 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것 입니다.

 

(1) 구간추정의 개념

  • 신뢰수준(Confidence Level): 모수가 신뢰구간 안에 존재할 확률
  • 유의수준 (Significance Level, α\alpha): 신뢰구간 밖에 있을 확률
    • 일반적으로 α=0.05\alpha = 0.05 (즉, 95% 신뢰구간)

 

(2) 모평균의 구간추정

  • 모집단 분산을 알고 있는 경우 → Z-통계량 사용
  • 모집단 분산을 모르는 경우 → t-분포 사용 (자유도 n-1)

 

신뢰수준  Z-통계량에 의한 신뢰구간  t-분포에 의한 신뢰구간
90% (Z = 1.645) 자유도 n−1n-1 사용
95% (Z = 1.960) 자유도 n−1n-1 사용
99% (Z = 2.576) 자유도 n−1n-1 사용
  • 표본 크기가 작을 때(일반적으로 n<30n < 30)는 정규분포 대신 t-분포를 사용합니다.
  • 표본 크기가 충분히 크다면 (n≥30n \geq 30), Z-통계량을 사용해도 무방합니다.

 


4. 가설검정 (Hypothesis Testing)

가설검정은 모집단의 특성에 대해 설정된 가설이 맞는지 검정하는 과정입니다.

(1) 가설검정의 기본 개념

  • 귀무가설 (H0H_0): 현재 믿고 있는 가설 (기본 가정)
  • 대립가설 (H1H_1): 새로운 주장을 의미하며, 연구자가 증명하고자 하는 가설

 

(2) 유의수준 (α\alpha)과 오류

  • 제1종 오류 (Type I Error): 실제로 참인 귀무가설을 기각하는 오류
  • 제2종 오류 (Type II Error): 실제로 거짓인 귀무가설을 채택하는 오류

 

오류 유형  설명
제1종 오류 유죄(X) → 무죄(O)인데 유죄로 판단
제2종 오류 무죄(X) → 유죄(O)인데 무죄로 판단
  • p-value (유의 확률): 귀무가설을 기각할 최소의 유의 수준
    • p<αp < alpha이면 귀무가설 기각 (즉, 대립가설 채택)
    • p>αp > alpha이면 귀무가설 채택

 

(3) 가설검정 절차

  1. 가설 설정: 귀무가설과 대립가설을 설정
  2. 유의수준 (α\alpha) 설정: 일반적으로 0.05 (5%) 사용
  3. 검정통계량 계산:
    • 모평균 검정 → Z-검정 / t-검정
    • 모분산 검정 → χ2\chi^2-검정 (카이제곱 검정)
    • 두 모분산 비교 → F-검정
  4. p-value 확인 및 의사결정
    • p<αp < \alpha → 귀무가설 기각 (즉, 대립가설 채택)
    • p>αp > \alpha → 귀무가설 채택

5. 검정 방법별 개요

(1) 표본의 평균 검정

  • 단일표본 평균 검정: 모집단 평균과 특정 값 비교 (Z-검정, t-검정)
  • 두 표본 평균 비교
    • 독립표본 t-검정: 서로 다른 두 집단 비교
    • 대응표본 t-검정: 동일한 집단에서 전후 비교

(2) 카이제곱 검정 (χ2\chi^2-Test)

  • 범주형 데이터에서 기대 빈도와 관찰 빈도의 차이를 검정하는 방법
  • 예) 독립성 검정, 적합도 검정

(3) F-검정 (분산비 검정)

  • 두 모집단의 분산이 동일한지 비교하는 검정
  • 예) 두 집단의 실험 결과의 분산 비교

6. 결론

  • 점추정은 단일 값으로 모수를 추정하지만, 구간추정은 신뢰구간을 설정하여 보다 신뢰도 높은 추정을 제공합니다.
  • 가설검정에서는 귀무가설과 대립가설을 설정하고 검정통계량을 이용하여 가설을 평가합니다.
  • p-value가 유의수준보다 작으면 귀무가설을 기각하고, 그렇지 않으면 채택합니다.
  • 검정 방법은 표본의 성격(독립표본 vs 대응표본)과 모수(평균 vs 분산 등)에 따라 적절한 방법을 선택해야 합니다.

통계적 추론은 데이터 분석과 빅데이터 분야에서 필수적인 개념이므로, 기본 원리를 잘 이해하고 적용하는 것이 중요합니다!

728x90
반응형