728x90
반응형
PART03: 빅데이터 모델링
CHAPTER02: 분석기법 적용

[P03CH02S02] 고급 분석 기법
1. 범주형 자료분석
- 정의: 변수들이 이산형(범주형) 변수일 때 사용되는 분석 방법
- 분석 방법 (독립변수와 종속변수 관계에 따른 방법 선택)
독립변수종속변수분석 방법예제
범주형 | 범주형 | 빈도분석, 카이제곱 검정, 로그 선형 모형 | 지역별 선호 정당 |
연속형 | 범주형 | 로지스틱 회귀분석 | 소득에 따른 결혼 선호도 |
범주형 | 연속형 | T검정(2그룹), 분산분석(2그룹 이상) | 지역별 가계수입 차이 |
연속형 | 연속형 | 상관분석, 회귀분석 | - |
- 주요 개념
- 분할표: 범주형 데이터를 변수별로 정리한 통계표
- 차원: 변수의 개수
- 수준: 각 변수의 범주 수
- 빈도분석: 질적 자료를 대상으로 빈도 및 비율 계산
- 교차분석 (카이제곱 검정): 두 범주형 변수 간 독립성 검정
- 로지스틱 회귀분석: 범주형 종속변수를 예측하는 회귀분석
- T검정: 두 집단 간 평균 비교 (독립변수: 범주형, 종속변수: 연속형)
- 분산분석 (ANOVA): 범주형 독립변수와 연속형 종속변수 간 차이 분석
- 분할표: 범주형 데이터를 변수별로 정리한 통계표
2. 다변량분석
- 정의: 여러 개의 변수(측정치)를 동시에 분석하는 통계적 기법
- 주요 용어
- 종속 기법: 종속변수와 독립변수 구분하여 분석
- 상호의존적 기법: 종속·독립 구분 없이 전체 변수 분석
- 명목척도: 단순 분류 (예: 성별)
- 순위척도: 순위 정보 포함 (예: 만족도 1~5점)
- 등간척도: 숫자의 차이는 의미 있지만 비율은 무의미 (예: 온도)
- 비율척도: 0이 존재하고 비율도 의미 있음 (예: 키, 무게)
- 정량적 지표: 등간척도, 비율척도로 측정된 자료 (모수화된 자료)
- 비정량적 지표: 명목척도, 순위척도로 측정된 자료 (비모수화 자료)
- 변량: 여러 변수들의 가중치를 반영한 새로운 변수
- 다변량 분석 기법
- 다중회귀분석: 여러 개의 독립변수 변화에 따른 종속변수 예측
- 다변량 분산분석 (MANOVA): 여러 개의 종속변수를 포함하는 ANOVA
- 다변량 공분산 분석 (MANCOVA): 실험에서 통제되지 않은 변수 제거
- 정준상관분석: 다중회귀분석을 확장하여 여러 독립변수와 종속변수의 관계 분석
- 요인분석: 여러 변수들을 몇 개의 요인으로 요약 (측정도구 타당성 분석)
- 군집분석: 집단 정보 없이 개체들의 유사성을 바탕으로 군집화
- 다중판별분석: 범주형 종속변수 예측을 위한 분석 기법 (독립변수는 연속형)
- 다차원 척도법 (MDS): 개체 간 거리 또는 유사성을 이용해 저차원 공간에 시각화 (차원 축소 기법)
3. 시계열 분석 (Time Series Analysis)
- 시계열 자료 유형
- 이산 시계열: 관측값이 이산적인 경우 (예: 일일 주가)
- 연속 시계열: 관측값이 연속적인 경우 (예: 기온 변화)
- 시차 (Lag): 관측 시점 사이의 간격
- 시계열 자료의 성분

- 불규칙 성분 (Irregular Component): 랜덤 변동 요소
- 체계적 성분 (Systematic Component):
- 추세 성분 (Trend Component): 장기적으로 증가/감소하는 경향
- 계절 성분 (Seasonal Component): 계절적 패턴 (예: 연간 주기)
- 순환 성분 (Cyclical Component): 경기 순환처럼 장기적 주기 변동
- 자기상관성 (Autocorrelation): 과거 데이터와 현재 데이터 간 선형 관계
- 백색 잡음 (White Noise): 무작위 변동, 특정 패턴 없음
- 정상성 (Stationarity)
- 정의: 시계열 데이터의 평균과 분산이 일정한 경우 (정상성이 없으면 분석 어려움)
- 정상성 조건
- 평균 일정 → 차분 (Difference) 적용
- 분산 일정 → 변환 (Transformation) 적용
- 공분산이 시차에만 의존 (시점에 의존하지 않음)
- 시계열 분석 방법
- 단순 방법
- 이동평균법 (Moving Average Method): 일정 기간 이동하며 평균 계산
- 지수평활법 (Exponential Smoothing): 최근 데이터에 더 큰 가중치를 부여하여 추세 파악
- 분해법 (Decomposition Method): 시계열 데이터를 성분별로 분해하여 분석
- 모형 기반 방법
- 자기회귀모형 (AR, AutoRegression): 과거 시점 데이터를 기반으로 현재값 예측
- 이동평균모형 (MA, Moving Average): 오차항만을 이용한 예측 모델
- ARMA 모형: AR + MA 결합 모델
- ARIMA 모형: 차분 연산을 추가하여 비정상성을 처리한 모델 (ARIMA(p, d, q))
- 단순 방법
4. 베이즈 기법 (Bayesian Methods)

- 베이즈 추론 (Bayesian Inference)
- 정의: 사전 확률 + 새로운 정보 → 사후 확률 추정
- 조건부 확률 개념: P(A∣B)사용
- 베이즈 기법의 개념
- 사전 확률을 설정하고, 새로운 데이터를 반영하여 확률 갱신
- 객관적, 주관적 접근 가능
- 베이즈 기법 적용
- 회귀 분석
- 선형 회귀: 실제값과 예측값 차이를 최소화
- 베이즈 회귀: 새로운 데이터가 들어올 때마다 사전 확률을 업데이트하여 점진적으로 개선
- 분류 모델
- 나이브 베이즈 분류 (Naïve Bayes Classifier)
- 모든 특성값이 서로 독립이라고 가정
- 장점: 데이터가 적어도 효율적 훈련 가능, 간단한 모델 구조지만 실제 성능 우수
- 활용 사례: 문서 분류 (예: 스팸 필터링)
- 나이브 베이즈 분류기 유형
- 가우시안 나이브 베이즈: 연속값 데이터 처리 (가우시안 분포 가정)
- 다항분포 나이브 베이즈: 특성이 다항분포 기반
- 베르누이 나이브 베이즈: 특성이 독립적인 이진 변수로 표현되는 경우 (예: 문서 내 단어 출현 여부)
- 나이브 베이즈 분류 (Naïve Bayes Classifier)
- 회귀 분석
5. 딥러닝 분석 (Deep Learning)
- 개념: 여러 비선형 변환을 조합하여 높은 수준의 추상화를 시도하는 기계학습 기법
- 인공신경망(ANN)의 단점(계산 속도 저하, 초기치 의존성, 과적합)을 극복하면서 발전
- 은닉층을 여러 개 두어 깊은 신경망(Deep Neural Network) 형성
- 딥러닝 주요 개념
- 노드: 신경계의 뉴런 역할
- 가중치: 신경계의 시냅스 역할, 연결 계수
- 활성 함수: 입력을 변환하여 출력 결정
- 딥러닝 주요 알고리즘
- 심층 신경망 (DNN): 다층 퍼셉트론 구조로 일반적인 신경망 모델
- 합성곱 신경망 (CNN): 이미지 인식에 특화, 가중치 공유 및 풀링 적용
- 순환 신경망 (RNN): 시퀀스 데이터 처리 (예: 자연어 처리)
- 심층 신뢰 신경망 (DBN): 그래프 기반 생성 모델
6. 비정형 데이터 분석 (Unstructured Data Analysis)
- 비정형 데이터 개념
- 데이터 형태에 따른 가치: 비정형 > 반정형 > 정형
- 비정형 데이터 예시: 텍스트, 이미지, 음성, 영상 등
- 비정형 데이터 분석 기법
- 데이터 마이닝: 의미 있는 정보 추출
- 텍스트 마이닝: 자연어 처리 기법을 이용하여 의미 파악
- 웹 마이닝: 웹 자원에서 패턴과 추세 분석
- 오피니언 마이닝 (감성 분석): 평가, 감정, 태도를 분석
- 리얼리티 마이닝: 스마트폰 센서 데이터 분석
7. 앙상블 분석 (Ensemble Learning)
- 개념: 여러 개의 학습 모델을 결합하여 성능을 향상시키는 기법
- 약학습기 (Weak Learner): 개별적으로는 정확도가 낮지만 조합하면 성능 향상 가능
- 강학습기 (Strong Learner): 여러 개의 약학습기를 조합하여 성능 개선
- 앙상블 분석 기법
- 보팅 (Voting)
- 서로 다른 학습 모델을 조합
- 하드 보팅: 다수결 원칙
- 소프트 보팅: 예측 확률 평균
- 부스팅 (Boosting)
- 가중치를 조정하여 연속적으로 학습
- 배깅 (Bagging)
- 부트스트랩(복원 랜덤 샘플) > 학습 > 결과 집계
- 분류 문제: 다수결 방식, 회귀 문제: 평균 계산
- 보팅 (Voting)
8. 비모수 통계 (Non-Parametric Statistics)
- 개념: 모집단의 분포 가정 없이 직접 확률을 계산하는 통계 기법
- 모수 통계는 데이터가 정규분포를 따른다고 가정하지만, 비모수 통계는 가정 없이 분석 가능
- 비모수 통계법 사용 조건
- 모집단이 정규분포가 아닐 때
- 데이터 변환으로도 정규성을 확보할 수 없을 때
- 표본이 적을 때
- 명목척도(분류) 또는 서열척도(순위)일 때
- 비모수 검정 방법
- 부호 검정: 관측치 간의 크기 비교
- 윌콕슨 부호순위 검정: 크기와 순위까지 고려
- 만-위트니 검정: 두 집단 간 차이 분석
- 크루스칼-왈리스 검정: 세 개 이상의 집단 비교
비모수 검정은 데이터의 분포 가정이 어렵거나 표본 수가 적을 때 유용함.
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[P04CH01S02] 분석결과 해석 (0) | 2025.03.19 |
---|---|
Part 4: 빅데이터 결과 해석 (0) | 2025.03.18 |
[P03CH02S01] ✨분석 기법 (feat. 인공지능, 빅데이터) (1) | 2025.03.17 |
[P03CH01S01-02] 데이터 탐색 기초 (0) | 2025.03.17 |
Part 3: 빅데이터 모델링 (0) | 2025.03.16 |