본문 바로가기
자격증/빅데이터분석기사

[P03CH02S02] 고급 분석 기법

by rnasterofmysea 2025. 3. 18.
728x90
반응형

PART03: 빅데이터 모델링

CHAPTER02: 분석기법 적용

[P03CH02S02] 고급 분석 기법




1. 범주형 자료분석

  • 정의: 변수들이 이산형(범주형) 변수일 때 사용되는 분석 방법
  • 분석 방법 (독립변수와 종속변수 관계에 따른 방법 선택)
독립변수종속변수분석 방법예제
범주형 범주형 빈도분석, 카이제곱 검정, 로그 선형 모형 지역별 선호 정당
연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼 선호도
범주형 연속형 T검정(2그룹), 분산분석(2그룹 이상) 지역별 가계수입 차이
연속형 연속형 상관분석, 회귀분석 -
  • 주요 개념
    1. 분할표: 범주형 데이터를 변수별로 정리한 통계표
      • 차원: 변수의 개수
      • 수준: 각 변수의 범주 수
    2. 빈도분석: 질적 자료를 대상으로 빈도 및 비율 계산
    3. 교차분석 (카이제곱 검정): 두 범주형 변수 간 독립성 검정
    4. 로지스틱 회귀분석: 범주형 종속변수를 예측하는 회귀분석
    5. T검정: 두 집단 간 평균 비교 (독립변수: 범주형, 종속변수: 연속형)
    6. 분산분석 (ANOVA): 범주형 독립변수와 연속형 종속변수 간 차이 분석

2. 다변량분석

  • 정의: 여러 개의 변수(측정치)를 동시에 분석하는 통계적 기법
  • 주요 용어
    1. 종속 기법: 종속변수와 독립변수 구분하여 분석
    2. 상호의존적 기법: 종속·독립 구분 없이 전체 변수 분석
    3. 명목척도: 단순 분류 (예: 성별)
    4. 순위척도: 순위 정보 포함 (예: 만족도 1~5점)
    5. 등간척도: 숫자의 차이는 의미 있지만 비율은 무의미 (예: 온도)
    6. 비율척도: 0이 존재하고 비율도 의미 있음 (예: 키, 무게)
    7. 정량적 지표: 등간척도, 비율척도로 측정된 자료 (모수화된 자료)
    8. 비정량적 지표: 명목척도, 순위척도로 측정된 자료 (비모수화 자료)
    9. 변량: 여러 변수들의 가중치를 반영한 새로운 변수
  • 다변량 분석 기법
    1. 다중회귀분석: 여러 개의 독립변수 변화에 따른 종속변수 예측
    2. 다변량 분산분석 (MANOVA): 여러 개의 종속변수를 포함하는 ANOVA
      • 다변량 공분산 분석 (MANCOVA): 실험에서 통제되지 않은 변수 제거
    3. 정준상관분석: 다중회귀분석을 확장하여 여러 독립변수와 종속변수의 관계 분석
    4. 요인분석: 여러 변수들을 몇 개의 요인으로 요약 (측정도구 타당성 분석)
    5. 군집분석: 집단 정보 없이 개체들의 유사성을 바탕으로 군집화
    6. 다중판별분석: 범주형 종속변수 예측을 위한 분석 기법 (독립변수는 연속형)
    7. 다차원 척도법 (MDS): 개체 간 거리 또는 유사성을 이용해 저차원 공간에 시각화 (차원 축소 기법)
 

3. 시계열 분석 (Time Series Analysis)

  • 시계열 자료 유형
    1. 이산 시계열: 관측값이 이산적인 경우 (예: 일일 주가)
    2. 연속 시계열: 관측값이 연속적인 경우 (예: 기온 변화)
    3. 시차 (Lag): 관측 시점 사이의 간격
  • 시계열 자료의 성분
https://velog.velcdn.com/images/wlsn404/post/412afbd0-8cca-4ab5-855d-57533d435c80/image.png

 

  1. 불규칙 성분 (Irregular Component): 랜덤 변동 요소
  2. 체계적 성분 (Systematic Component):
    • 추세 성분 (Trend Component): 장기적으로 증가/감소하는 경향
    • 계절 성분 (Seasonal Component): 계절적 패턴 (예: 연간 주기)
    • 순환 성분 (Cyclical Component): 경기 순환처럼 장기적 주기 변동
    • 자기상관성 (Autocorrelation): 과거 데이터와 현재 데이터 간 선형 관계
    • 백색 잡음 (White Noise): 무작위 변동, 특정 패턴 없음
  • 정상성 (Stationarity)
    • 정의: 시계열 데이터의 평균과 분산이 일정한 경우 (정상성이 없으면 분석 어려움)
    • 정상성 조건
      1. 평균 일정 → 차분 (Difference) 적용
      2. 분산 일정 → 변환 (Transformation) 적용
      3. 공분산이 시차에만 의존 (시점에 의존하지 않음)
  • 시계열 분석 방법
    1. 단순 방법
      • 이동평균법 (Moving Average Method): 일정 기간 이동하며 평균 계산
      • 지수평활법 (Exponential Smoothing): 최근 데이터에 더 큰 가중치를 부여하여 추세 파악
      • 분해법 (Decomposition Method): 시계열 데이터를 성분별로 분해하여 분석
    2. 모형 기반 방법
      • 자기회귀모형 (AR, AutoRegression): 과거 시점 데이터를 기반으로 현재값 예측
      • 이동평균모형 (MA, Moving Average): 오차항만을 이용한 예측 모델
      • ARMA 모형: AR + MA 결합 모델
      • ARIMA 모형: 차분 연산을 추가하여 비정상성을 처리한 모델 (ARIMA(p, d, q))

4. 베이즈 기법 (Bayesian Methods)

 

https://ko.wikipedia.org/wiki/%EB%B2%A0%EC%9D%B4%EC%A6%88_%ED%99%95%EB%A5%A0%EB%A1%A0
  • 베이즈 추론 (Bayesian Inference)
    • 정의: 사전 확률 + 새로운 정보 → 사후 확률 추정
    • 조건부 확률 개념: P(A∣B)사용
  • 베이즈 기법의 개념
    • 사전 확률을 설정하고, 새로운 데이터를 반영하여 확률 갱신
    • 객관적, 주관적 접근 가능
  • 베이즈 기법 적용
    1. 회귀 분석
      • 선형 회귀: 실제값과 예측값 차이를 최소화
      • 베이즈 회귀: 새로운 데이터가 들어올 때마다 사전 확률을 업데이트하여 점진적으로 개선
    2. 분류 모델
      • 나이브 베이즈 분류 (Naïve Bayes Classifier)
        • 모든 특성값이 서로 독립이라고 가정
        • 장점: 데이터가 적어도 효율적 훈련 가능, 간단한 모델 구조지만 실제 성능 우수
        • 활용 사례: 문서 분류 (예: 스팸 필터링)
      • 나이브 베이즈 분류기 유형
        • 가우시안 나이브 베이즈: 연속값 데이터 처리 (가우시안 분포 가정)
        • 다항분포 나이브 베이즈: 특성이 다항분포 기반
        • 베르누이 나이브 베이즈: 특성이 독립적인 이진 변수로 표현되는 경우 (예: 문서 내 단어 출현 여부)

5. 딥러닝 분석 (Deep Learning)

  • 개념: 여러 비선형 변환을 조합하여 높은 수준의 추상화를 시도하는 기계학습 기법
    • 인공신경망(ANN)의 단점(계산 속도 저하, 초기치 의존성, 과적합)을 극복하면서 발전
    • 은닉층을 여러 개 두어 깊은 신경망(Deep Neural Network) 형성
  • 딥러닝 주요 개념
    • 노드: 신경계의 뉴런 역할
    • 가중치: 신경계의 시냅스 역할, 연결 계수
    • 활성 함수: 입력을 변환하여 출력 결정
  • 딥러닝 주요 알고리즘
    1. 심층 신경망 (DNN): 다층 퍼셉트론 구조로 일반적인 신경망 모델
    2. 합성곱 신경망 (CNN): 이미지 인식에 특화, 가중치 공유 및 풀링 적용
    3. 순환 신경망 (RNN): 시퀀스 데이터 처리 (예: 자연어 처리)
    4. 심층 신뢰 신경망 (DBN): 그래프 기반 생성 모델

6. 비정형 데이터 분석 (Unstructured Data Analysis)

  • 비정형 데이터 개념
    • 데이터 형태에 따른 가치: 비정형 > 반정형 > 정형
    • 비정형 데이터 예시: 텍스트, 이미지, 음성, 영상 등
  • 비정형 데이터 분석 기법
    1. 데이터 마이닝: 의미 있는 정보 추출
    2. 텍스트 마이닝: 자연어 처리 기법을 이용하여 의미 파악
    3. 웹 마이닝: 웹 자원에서 패턴과 추세 분석
    4. 오피니언 마이닝 (감성 분석): 평가, 감정, 태도를 분석
    5. 리얼리티 마이닝: 스마트폰 센서 데이터 분석

7. 앙상블 분석 (Ensemble Learning)

  • 개념: 여러 개의 학습 모델을 결합하여 성능을 향상시키는 기법
    • 약학습기 (Weak Learner): 개별적으로는 정확도가 낮지만 조합하면 성능 향상 가능
    • 강학습기 (Strong Learner): 여러 개의 약학습기를 조합하여 성능 개선
  • 앙상블 분석 기법
    1. 보팅 (Voting)
      • 서로 다른 학습 모델을 조합
      • 하드 보팅: 다수결 원칙
      • 소프트 보팅: 예측 확률 평균
    2. 부스팅 (Boosting)
      • 가중치를 조정하여 연속적으로 학습
    3. 배깅 (Bagging)
      • 부트스트랩(복원 랜덤 샘플) > 학습 > 결과 집계
      • 분류 문제: 다수결 방식, 회귀 문제: 평균 계산

8. 비모수 통계 (Non-Parametric Statistics)

  • 개념: 모집단의 분포 가정 없이 직접 확률을 계산하는 통계 기법
    • 모수 통계는 데이터가 정규분포를 따른다고 가정하지만, 비모수 통계는 가정 없이 분석 가능
  • 비모수 통계법 사용 조건
    1. 모집단이 정규분포가 아닐 때
    2. 데이터 변환으로도 정규성을 확보할 수 없을 때
    3. 표본이 적을 때
    4. 명목척도(분류) 또는 서열척도(순위)일 때
  • 비모수 검정 방법
    1. 부호 검정: 관측치 간의 크기 비교
    2. 윌콕슨 부호순위 검정: 크기와 순위까지 고려
    3. 만-위트니 검정: 두 집단 간 차이 분석
    4. 크루스칼-왈리스 검정: 세 개 이상의 집단 비교

비모수 검정은 데이터의 분포 가정이 어렵거나 표본 수가 적을 때 유용함.

 

728x90
반응형