728x90
반응형
PART02: 빅데이터 탐색
CHAPTER02: 통계기법 이해
[P02CH03S01] 기술통계
01. 데이터 요약
기술통계는 분석에 필요한 데이터를 요약하여 묘사하고 설명하는 통계 기법을 의미합니다. 단순히 데이터를 정리하는 행위만으로는 의미가 없으며, 분석 전 데이터의 특성을 찾아내고 이를 정량화하여 체계적으로 요약하는 것이 중요합니다.
02. 표본추출
2.1 모집단과 표본
- 모집단(Population): 연구나 실험의 결과가 일반화되는 큰 집단으로, 정보를 얻고자 하는 대상의 전체 집합을 의미합니다.
- 표본(Sample): 모집단에서 일부를 추출하여 조사한 결과로, 모집단의 성질을 추측하는 데 사용되는 자료입니다.
- 표본추출(Sampling): 모집단에서 표본을 선택하는 행위 및 과정입니다.
2.2 전수조사와 표본조사
- 전수조사(Census Survey): 모집단 전체를 대상으로 수행하는 조사
- 표본조사(Sample Survey): 모집단에서 일부를 추출하여 조사하는 방법
- 전수조사는 정확한 결과를 도출할 수 있으나, 인력과 예산 등의 제약이 존재
- 모집단 일부가 전체를 대표할 수 있다면 표본조사를 통해 모집단 전체의 분석 결과로 활용 가능
2.3 표본추출 오차
- 과잉 대표(Overrepresentation): 중복 선택 등의 원인으로 모집단이 반복 중복된 데이터로 규정되는 현상
- 최소 대표(Underrepresentation): 모집단을 대표할 수 없는 표본이 선택되는 현상
2.4. 확률 표본추출 기법 (Probability Sampling)
1) 단순 무작위 추출 (Simple Random Sampling)
- 가장 기본적인 표본 추출법으로, 모집단에서 무작위로 표본을 선택하여 편향성을 제거
- 난수를 이용하여 무작위성을 보장하며, 모집단에 대한 사전 지식이 많지 않은 경우 유용
2) 계통 추출 (Systematic Sampling)
- 모집단에서 일정한 간격(Sampling Interval)을 설정하고, 간격 내에서 무작위로 표본을 선택하는 방법
3) 층화 추출 (Stratified Sampling)
- 모집단을 서로 겹치지 않는 여러 층으로 나누고, 각 층에서 단순 임의 추출법을 적용하는 방법
- 모집단 전체뿐만 아니라 각 층별 분석이 필요한 경우 적합
- 모집단을 효과적으로 층화하면 오차를 줄이고 추정의 정확도를 높일 수 있음
층화변수 (Stratification Variable)
- 모집단을 층으로 나눌 때 기준이 되는 변수
- 질적 층화변수(Qualitative Variable): 성별, 지역 등과 같이 명확한 구분이 가능한 변수
- 양적 층화변수(Quantitative Variable): 연령, 소득과 같이 층 경계를 설정해야 하는 변수
4) 군집 추출 (Cluster Sampling)
- 모집단을 차이가 없는 여러 개의 군집(Cluster)으로 나누고, 군집 단위로 일부 또는 전체를 분석하는 방법
- 모집단에 대한 구체적인 추출 방법을 정하기 어려운 경우 유용
- 표본 크기가 같더라도 단순 임의 추출보다 표본 오차가 증가할 가능성이 있음
2.5. 비확률 표본추출 기법 (Non-Probability Sampling)
비확률 표본추출은 표본이 모집단에서 선택될 확률을 명확하게 정의할 수 없는 방법으로, 보통 탐색적 연구나 모집단을 정확히 규정할 수 없는 경우 사용됩니다.
1) 간편 추출법 (Convenience Sampling)
- 조사원이 편리한 방식으로 표본을 선정하는 방법
- 비용이 적게 들고 빠르게 실행할 수 있지만, 대표성이 낮아 일반화하기 어려움
2) 판단 추출법 (Judgment Sampling)
- 조사자의 경험과 지식을 바탕으로 모집단을 대표할 표본을 주관적으로 선정하는 방법
- 연구자의 판단에 따라 표본이 결정되므로 편향성이 있을 수 있음
3) 할당 추출법 (Quota Sampling)
- 모집단을 특정 기준(예: 연령, 성별)에 따라 부분집단으로 나누고, 모집단의 구성 비율에 맞게 표본을 할당하는 방법
- 모집단의 특정 특성을 반영하기 쉬우나 표본이 무작위로 선택되지 않아 편향 가능성이 존재
4) 눈덩이 추출법 (Snowball Sampling)
- 접근이 어려운 집단(예: 마약 중독자, 희귀질환 환자)에 대한 연구에서 사용
- 초기 응답자가 다음 응답자를 추천하는 방식으로 표본을 확장하는 방법
- 모집단에 대한 정보가 부족한 경우 활용 가능하지만, 표본이 모집단을 대표하지 못할 가능성이 있음
03. 확률과 분포
3.1 확률의 개념
1) 기술통계와 추측통계
- 기술통계(Descriptive Statistics): 분석에 필요한 데이터를 요약하고 묘사, 설명하는 통계 기법
- 추측(추론) 통계(Inferential Statistics): 표본을 이용하여 모집단에 대한 과학적 추론을 수행하는 통계 기법
- 확률과 확률분포는 모집단에 대한 추측 및 추론의 정확성을 평가하는 논리적 도구
2) 확률의 개념
- 확률 실험: 동일한 조건에서 반복 수행되는 실험
- 수학적 확률: 표본공간 S에서 사건 A가 발생할 확률은 P(A) = n(A) / n(S)
- 통계적 확률: 시행 횟수가 충분히 많을 때 상대도수 r/n으로 정의
- 상대도수: 도수분포표에서 특정 계급의 도수가 전체 도수에서 차지하는 비율
3) 사건과 표본공간
- 사건(Event): 시행 결과로 나타나는 현상
- 표본공간(Sample Space, S): 모든 발생 가능한 실험 결과의 집합
- 여집합(Complementary Event): 사건 A가 발생하지 않을 확률
- 조건부 확률(Conditional Probability): 사건 B가 일어났다는 가정 하에 사건 A가 일어날 확률
- P(A | B) = P(A ∩ B) / P(B)
- 결합 확률(Joint Probability): 두 사건 A와 B가 동시에 발생할 확률
- P(A ∩ B) = P(A | B) * P( B)
- A, B가 독립이면 P(A | B) = P(A) 가 되므로 P(A ∩ B) = P(A) * P(B) 성립
- 총 확률 정리(Total Probability Theorem): 표본공간이 상호 배타적인 사건 A1, A2,..., Ak로 분할될 때 P(B) = Σ P(B | Ai) P(Ai)
- 베이즈 정리(Bayes' Theorem): P(Ai | B) = P(B | Ai) * P(Ai) / P(B)
- 해석적인 측면에서는 새로운 증거에 기반하여 과거의 정보를 향상시키거나 개선 할 수 있다.
3.2 확률 변수와 확률분포
1) 확률 변수(Random Variable)
- 확률 변수: 시행 결과를 수치로 나타낸 변수 (X)
- 이산확률변수(Discrete Random Variable): 유한한 값을 가짐 (예: 동전, 주사위)
- 연속확률변수(Continuous Random Variable): 무한한 값을 가짐 (예: 키, 몸무게)
2) 확률분포(Probability Distribution)
- 확률분포: 확률변수가 특정 값을 가질 확률의 분포
- 확률질량함수(PMF, Probability Mass Function): 이산확률변수의 특정 값에 대한 확률을 나타내는 함수 f(x) = P(X=x)
- 확률밀도함수(PDF, Probability Density Function): 연속확률변수의 분포를 나타내는 함수
3) 기댓값과 분산
- 기댓값(E(X)): 확률변수의 가중평균값
- 이산확률변수의 기댓값: E(X) = Σ x P(X=x)
- 연속확률변수의 기댓값: E(X) = ∫ x f(x) dx
- 분산(Var(X)): 확률변수 값의 분포도를 나타내는 척도
- 이산확률변수의 분산: Var(X) = Σ (x - E(X))² P(X=x)
- 연속확률변수의 분산: Var(X) = ∫ (x - E(X))² f(x) dx
3.3 확률분포의 종류
1) 이산확률분포
- 베르누이 분포(Bernoulli Distribution): 성공(1)과 실패(0) 두 가지 결과를 가지는 분포
- 이항분포(Binomial Distribution): 독립적인 베르누이 시행을 n번 반복했을 때 성공 횟수의 분포
- 다항분포(Multinomial Distribution): 여러 개의 값을 가질 수 있는 확률변수의 분포
- 포아송 분포(Poisson Distribution): 단위 시간당 특정 사건이 발생하는 횟수를 나타내는 분포 (기댓값과 분산이 동일)
- 기하 분포(Geometric Distribution): 첫 번째 성공까지 시행한 횟수를 나타내는 분포
- 음이항분포(Negative Binomial Distribution): k번째 성공까지 시행한 횟수를 나타내는 분포
- 초기하분포(Hypergeometric Distribution): 비복원 추출 시 특정 개수가 뽑힐 확률을 나타내는 분포
2) 연속확률분포
- 연속균등분포(Uniform Distribution): 특정 범위 내에서 균등한 확률을 가지는 분포
- 지수분포(Exponential Distribution): 포아송 과정에서 사건 간 대기시간의 분포
- 사건이 서로 돕립적일 때, 일정 시간 동안 발생하는 사건의 횟수가 포아송 분포를 따른다면, 다음 사건이 일어날 때 까지의 대기시간에 대한 확률이 따르는 분석
- 정규분포(Normal Distribution): 자연현상에서 자주 나타나는 종 모양의 확률분포
- 표준정규분포(Standard Normal Distribution, Z-분포): 평균 0, 표준편차 1인 정규분포
- 감마분포(Gamma Distribution): 포아송 과정에서 k개의 사건이 발생할 때까지의 대기시간 분포
- 카이제곱분포(Chi-Square Distribution): 표준정규변수를 제곱하여 얻어지는 분포
- 스튜던트 t-분포(Student’s t-Distribution): 작은 표본 크기에서 평균을 측정할 때 사용하는 분포
- F-분포(F-Distribution): 두 개의 카이제곱분포를 나눈 확률분포, 분산분석 등에 사용
3.4 표본분포
1) 모집단과 표본분포
- 모집단의 모수(Parameter): 모집단의 특성을 나타내는 값
- 표본의 통계량(Statistic): 표본의 특성을 나타내는 값
- 표본평균의 표본분포(Sampling Distribution of Sample Mean): 표본평균의 확률분포
- 표준오차(Standard Error): 표본평균의 표준편차 (σ/√n)
2) 중심극한정리(Central Limit Theorem)
- 표본 크기 n이 충분히 크면 표본평균의 분포가 정규분포를 따름
- 모집단의 분포와 관계없이 표본의 수가 커질수록 정규분포에 가까워짐
3) 표본비율의 표본분포
- 표본에서 특정 속성을 가진 개체 수의 비율을 분석하는 개념
- 표준정규분포를 이용하여 표본비율을 표준화 가능
기타 용어
* 자유도:
자유도란 자료집단의 변수 중에서 자유롭게 선택될 수 있는 변수의 수를 말한다.
표본 크기 n에서 1을 뺀 것
도움이 되셨다면 공감과 구독 눌러주세요!
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
Part 3: 빅데이터 모델링 (0) | 2025.03.16 |
---|---|
[P02CH02S02] 추론통계 (0) | 2025.03.16 |
[P02CH02S02] 고급 데이터 탐색 (0) | 2025.03.15 |
✨ [P02CH02S01] 데이터 탐색 기초 (feat. 기초 통계량의 추출 및 이해) (0) | 2025.03.15 |
[P02CH01S02] 분석 변수 처리 (0) | 2025.03.14 |