본문 바로가기
자격증/빅데이터분석기사

[P02CH03S01] 기술통계

by rnasterofmysea 2025. 3. 16.
728x90
반응형

PART02: 빅데이터 탐색

CHAPTER02: 통계기법 이해

 

[P02CH03S01] 기술통계


 

01. 데이터 요약

기술통계는 분석에 필요한 데이터를 요약하여 묘사하고 설명하는 통계 기법을 의미합니다. 단순히 데이터를 정리하는 행위만으로는 의미가 없으며, 분석 전 데이터의 특성을 찾아내고 이를 정량화하여 체계적으로 요약하는 것이 중요합니다.


02. 표본추출

2.1 모집단과 표본

  • 모집단(Population): 연구나 실험의 결과가 일반화되는 큰 집단으로, 정보를 얻고자 하는 대상의 전체 집합을 의미합니다.
  • 표본(Sample): 모집단에서 일부를 추출하여 조사한 결과로, 모집단의 성질을 추측하는 데 사용되는 자료입니다.
  • 표본추출(Sampling): 모집단에서 표본을 선택하는 행위 및 과정입니다.

2.2 전수조사와 표본조사

  1. 전수조사(Census Survey): 모집단 전체를 대상으로 수행하는 조사
  2. 표본조사(Sample Survey): 모집단에서 일부를 추출하여 조사하는 방법
    • 전수조사는 정확한 결과를 도출할 수 있으나, 인력과 예산 등의 제약이 존재
    • 모집단 일부가 전체를 대표할 수 있다면 표본조사를 통해 모집단 전체의 분석 결과로 활용 가능

2.3 표본추출 오차

  • 과잉 대표(Overrepresentation): 중복 선택 등의 원인으로 모집단이 반복 중복된 데이터로 규정되는 현상
  • 최소 대표(Underrepresentation): 모집단을 대표할 수 없는 표본이 선택되는 현상

 

2.4. 확률 표본추출 기법 (Probability Sampling)

 

1) 단순 무작위 추출 (Simple Random Sampling)

  • 가장 기본적인 표본 추출법으로, 모집단에서 무작위로 표본을 선택하여 편향성을 제거
  • 난수를 이용하여 무작위성을 보장하며, 모집단에 대한 사전 지식이 많지 않은 경우 유용

 

2) 계통 추출 (Systematic Sampling)

  • 모집단에서 일정한 간격(Sampling Interval)을 설정하고, 간격 내에서 무작위로 표본을 선택하는 방법

 

3) 층화 추출 (Stratified Sampling)

  • 모집단을 서로 겹치지 않는 여러 층으로 나누고, 각 층에서 단순 임의 추출법을 적용하는 방법
  • 모집단 전체뿐만 아니라 각 층별 분석이 필요한 경우 적합
  • 모집단을 효과적으로 층화하면 오차를 줄이고 추정의 정확도를 높일 수 있음

 

층화변수 (Stratification Variable)

  • 모집단을 층으로 나눌 때 기준이 되는 변수
  • 질적 층화변수(Qualitative Variable): 성별, 지역 등과 같이 명확한 구분이 가능한 변수
  • 양적 층화변수(Quantitative Variable): 연령, 소득과 같이 층 경계를 설정해야 하는 변수

 

4) 군집 추출 (Cluster Sampling)

  • 모집단을 차이가 없는 여러 개의 군집(Cluster)으로 나누고, 군집 단위로 일부 또는 전체를 분석하는 방법
  • 모집단에 대한 구체적인 추출 방법을 정하기 어려운 경우 유용
  • 표본 크기가 같더라도 단순 임의 추출보다 표본 오차가 증가할 가능성이 있음

 


2.5. 비확률 표본추출 기법 (Non-Probability Sampling)

비확률 표본추출은 표본이 모집단에서 선택될 확률을 명확하게 정의할 수 없는 방법으로, 보통 탐색적 연구나 모집단을 정확히 규정할 수 없는 경우 사용됩니다.

 

1) 간편 추출법 (Convenience Sampling)

  • 조사원이 편리한 방식으로 표본을 선정하는 방법
  • 비용이 적게 들고 빠르게 실행할 수 있지만, 대표성이 낮아 일반화하기 어려움

 

2) 판단 추출법 (Judgment Sampling)

  • 조사자의 경험과 지식을 바탕으로 모집단을 대표할 표본을 주관적으로 선정하는 방법
  • 연구자의 판단에 따라 표본이 결정되므로 편향성이 있을 수 있음

 

3) 할당 추출법 (Quota Sampling)

  • 모집단을 특정 기준(예: 연령, 성별)에 따라 부분집단으로 나누고, 모집단의 구성 비율에 맞게 표본을 할당하는 방법
  • 모집단의 특정 특성을 반영하기 쉬우나 표본이 무작위로 선택되지 않아 편향 가능성이 존재

 

4) 눈덩이 추출법 (Snowball Sampling)

  • 접근이 어려운 집단(예: 마약 중독자, 희귀질환 환자)에 대한 연구에서 사용
  • 초기 응답자가 다음 응답자를 추천하는 방식으로 표본을 확장하는 방법
  • 모집단에 대한 정보가 부족한 경우 활용 가능하지만, 표본이 모집단을 대표하지 못할 가능성이 있음

 


03. 확률과 분포

 

3.1 확률의 개념

 

1) 기술통계와 추측통계

  • 기술통계(Descriptive Statistics): 분석에 필요한 데이터를 요약하고 묘사, 설명하는 통계 기법
  • 추측(추론) 통계(Inferential Statistics): 표본을 이용하여 모집단에 대한 과학적 추론을 수행하는 통계 기법
  • 확률과 확률분포는 모집단에 대한 추측 및 추론의 정확성을 평가하는 논리적 도구

 

2) 확률의 개념

  • 확률 실험: 동일한 조건에서 반복 수행되는 실험
  • 수학적 확률: 표본공간 S에서 사건 A가 발생할 확률은 P(A) = n(A) / n(S)
  • 통계적 확률: 시행 횟수가 충분히 많을 때 상대도수 r/n으로 정의
  • 상대도수: 도수분포표에서 특정 계급의 도수가 전체 도수에서 차지하는 비율

 

3) 사건과 표본공간

  • 사건(Event): 시행 결과로 나타나는 현상
  • 표본공간(Sample Space, S): 모든 발생 가능한 실험 결과의 집합
  • 여집합(Complementary Event): 사건 A가 발생하지 않을 확률
  • 조건부 확률(Conditional Probability): 사건 B가 일어났다는 가정 하에 사건 A가 일어날 확률
    • P(A | B) = P(A ∩ B) / P(B)
  • 결합 확률(Joint Probability): 두 사건 A와 B가 동시에 발생할 확률
    • P(A ∩ B) = P(A | B) * P( B)
    • A, B가 독립이면 P(A | B) = P(A) 가 되므로 P(A ∩ B)  = P(A) * P(B) 성립
  • 총 확률 정리(Total Probability Theorem): 표본공간이 상호 배타적인 사건 A1, A2,..., Ak로 분할될 때 P(B) = Σ P(B | Ai) P(Ai)
  • 베이즈 정리(Bayes' Theorem): P(Ai | B) = P(B | Ai) *  P(Ai) / P(B)
    • 해석적인 측면에서는 새로운 증거에 기반하여 과거의 정보를 향상시키거나 개선 할 수 있다.

3.2 확률 변수와 확률분포

1) 확률 변수(Random Variable)

  • 확률 변수: 시행 결과를 수치로 나타낸 변수 (X)
  • 이산확률변수(Discrete Random Variable): 유한한 값을 가짐 (예: 동전, 주사위)
  • 연속확률변수(Continuous Random Variable): 무한한 값을 가짐 (예: 키, 몸무게)

2) 확률분포(Probability Distribution)

  • 확률분포: 확률변수가 특정 값을 가질 확률의 분포
  • 확률질량함수(PMF, Probability Mass Function): 이산확률변수의 특정 값에 대한 확률을 나타내는 함수 f(x) = P(X=x)
  • 확률밀도함수(PDF, Probability Density Function): 연속확률변수의 분포를 나타내는 함수

3) 기댓값과 분산

  • 기댓값(E(X)): 확률변수의 가중평균값
  • 이산확률변수의 기댓값: E(X) = Σ x P(X=x)
  • 연속확률변수의 기댓값: E(X) = ∫ x f(x) dx
  • 분산(Var(X)): 확률변수 값의 분포도를 나타내는 척도
  • 이산확률변수의 분산: Var(X) = Σ (x - E(X))² P(X=x)
  • 연속확률변수의 분산: Var(X) = ∫ (x - E(X))² f(x) dx

3.3 확률분포의 종류

 

1) 이산확률분포

  • 베르누이 분포(Bernoulli Distribution): 성공(1)과 실패(0) 두 가지 결과를 가지는 분포
  • 이항분포(Binomial Distribution): 독립적인 베르누이 시행을 n번 반복했을 때 성공 횟수의 분포
  • 다항분포(Multinomial Distribution): 여러 개의 값을 가질 수 있는 확률변수의 분포
  • 포아송 분포(Poisson Distribution): 단위 시간당 특정 사건이 발생하는 횟수를 나타내는 분포 (기댓값과 분산이 동일)
  • 기하 분포(Geometric Distribution): 첫 번째 성공까지 시행한 횟수를 나타내는 분포
  • 음이항분포(Negative Binomial Distribution): k번째 성공까지 시행한 횟수를 나타내는 분포
  • 초기하분포(Hypergeometric Distribution): 비복원 추출 시 특정 개수가 뽑힐 확률을 나타내는 분포

2) 연속확률분포

  • 연속균등분포(Uniform Distribution): 특정 범위 내에서 균등한 확률을 가지는 분포
  • 지수분포(Exponential Distribution): 포아송 과정에서 사건 간 대기시간의 분포
    • 사건이 서로 돕립적일 때, 일정 시간 동안 발생하는 사건의 횟수가 포아송 분포를 따른다면, 다음 사건이 일어날 때 까지의 대기시간에 대한 확률이 따르는 분석
  • 정규분포(Normal Distribution): 자연현상에서 자주 나타나는 종 모양의 확률분포
  • 표준정규분포(Standard Normal Distribution, Z-분포): 평균 0, 표준편차 1인 정규분포
  • 감마분포(Gamma Distribution): 포아송 과정에서 k개의 사건이 발생할 때까지의 대기시간 분포
  • 카이제곱분포(Chi-Square Distribution): 표준정규변수를 제곱하여 얻어지는 분포
  • 스튜던트 t-분포(Student’s t-Distribution): 작은 표본 크기에서 평균을 측정할 때 사용하는 분포
  • F-분포(F-Distribution): 두 개의 카이제곱분포를 나눈 확률분포, 분산분석 등에 사용

3.4 표본분포

1) 모집단과 표본분포

  • 모집단의 모수(Parameter): 모집단의 특성을 나타내는 값
  • 표본의 통계량(Statistic): 표본의 특성을 나타내는 값
  • 표본평균의 표본분포(Sampling Distribution of Sample Mean): 표본평균의 확률분포
  • 표준오차(Standard Error): 표본평균의 표준편차 (σ/√n)

2) 중심극한정리(Central Limit Theorem)

  • 표본 크기 n이 충분히 크면 표본평균의 분포가 정규분포를 따름
  • 모집단의 분포와 관계없이 표본의 수가 커질수록 정규분포에 가까워짐

3) 표본비율의 표본분포

  • 표본에서 특정 속성을 가진 개체 수의 비율을 분석하는 개념
  • 표준정규분포를 이용하여 표본비율을 표준화 가능

 

기타 용어

 

* 자유도:

 

자유도란 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수를 말한다.

표본 크기 n에서 1을 뺀 것

 

 


 

도움이 되셨다면 공감과 구독 눌러주세요!

 

728x90
반응형