본문 바로가기
자격증/빅데이터분석기사

[P03CH01S01-02] 데이터 탐색 기초

by rnasterofmysea 2025. 3. 17.
728x90
반응형

PART03: 빅데이터 모델링

CHAPTER03: 분석모델 설계

 

[P03CH01S01-02] 데이터 탐색 기초


 

01. 분석 절차 수립

 

1.1 분석 모형 선정

 

1) 분석 목적

  • 의사결정, 불확실성 해소, 요약, 인과관계 파악, 예측
  • 빅데이터 분석의 근본 목적: 과거 데이터를 바탕으로 원인을 분석하고, 이를 통해 미래를 예측
    • 데이터는 후행적인 성격을 가지지만 선행적인 성격도 포함
    • 가트너 그룹의 빅데이터 분석 목적:
      • 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기 관리 시스템

 

2) 분석 모형 선정 프로세스

  • 문제 요건 정의: 대상 데이터 선정, 분석 목표 및 조건 정의
  • 데이터 수집, 정리 및 도식화
  • 데이터 전처리: 데이터 정제, 종속/독립 변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등
  • 최적의 분석 모형 선정

 

1.2 분석 모형 정의

 

1) 분석 모형 종류

  • 예측 분석 모형
  • 현황 진단 모형
  • 최적화 분석 모형

 

2) 분석 모형 정의를 위한 사전 고려사항

  • 필요성, 파급 효과, 추진 시급성, 구현 가능성, 데이터 수집 가능성, 모델 확장성을 고려
  • 데이터 확보 가능성을 판단하고 기존 사례 또는 솔루션 활용 검토

 

3) 분석 접근 방식

  • 상향식 접근: 데이터 분석을 통해 인사이트 도출 → 의사결정 지점에서 분석 과제 발굴
  • 하향식 접근: 문제 탐색 → 비즈니스 모델, 외부 참조 모델, 분석 유스케이스 기반 모델 적용

 

1.3 분석 모형 구축 절차

 

1) 분석 시나리오 작성

  • 분석에 필요한 데이터, 절차, 기법 정의
  • 분석 과정과 결과 활용 방안 명확화

 

2) 분석 모형 설계 및 검정

  • 가설 검정 방법
    1. 유의 수준 결정, 귀무가설과 대립가설 설정
    2. 검정통계량 설정
    3. 기각역 설정: 검정통계량이 기각역에 위치하면 귀무가설 기각
    4. 검정통계량 계산: (표본평균 - 모평균) / 표본 표준편차
    5. 통계적 의사결정 수행 (양측검정, 단측검정)
    6. 추정 방법 기술 검토

참고: 통계 추정은 가설 검정과 관련 없음

 


02. 분석 환경 구축

 

2.1 분석 도구 선정

1) R

  • 특징: 객체지향 언어, 고속 메모리 처리, 다양한 자료구조, 최신 패키지 제공, 시각화 기능
  • 장점: 다양한 패키지 제공, 시각화 기능 강점
  • 단점: 대용량 데이터 처리 어려움, 보안 취약, 웹 브라우저 연동 불가 (별도 모듈 필요)

 

2) 파이썬

  • 특징: 플랫폼 독립적, 인터프리터식, 객체지향적 대화형 언어
  • 장점: 문법이 간결하여 빠른 개발, 모듈 재사용 가능, 다른 언어와 높은 연동성
  • 단점: 인터프리터 방식으로 실행 속도 느림 (JIT 컴파일러 사용 시 보완 가능)

 

2.2 데이터 분할

1) 데이터 분할 정의

  • 학습 데이터 (training), 평가 데이터 (validation), 검증용 테스트 데이터 (test) 분할
  • 일반적인 분할 비율: 7:3, 8:2 또는 4:3:3, 5:3:2

 

2) 평가 및 검증

  • 평가 데이터: 분석 모델의 과대/과소 적합 여부 평가
  • 검증용 테스트 데이터: 일반화된 분석 모형 최종 검증

 

3) 과대적합 및 과소적합

https://wikidocs.net/152777

  • 과대적합 방지 방법: 데이터 분할, k-fold 교차검증, 정규화 등
  • 과소적합: 모형이 단순하여 충분히 학습하지 못하는 경우
  • 일반화: 모델이 학습 데이터뿐만 아니라 새로운 데이터에도 높은 예측 정확도를 가지는 경우
728x90
반응형