728x90
반응형
PART03: 빅데이터 모델링
CHAPTER03: 분석모델 설계
[P03CH01S01-02] 데이터 탐색 기초
01. 분석 절차 수립
1.1 분석 모형 선정
1) 분석 목적
- 의사결정, 불확실성 해소, 요약, 인과관계 파악, 예측
- 빅데이터 분석의 근본 목적: 과거 데이터를 바탕으로 원인을 분석하고, 이를 통해 미래를 예측
- 데이터는 후행적인 성격을 가지지만 선행적인 성격도 포함
- 가트너 그룹의 빅데이터 분석 목적:
- 고객 인사이트, 제품 및 절차 효율성, 디지털 제품 및 서비스, 운영의 탁월성, 디지털 마케팅, 위기 관리 시스템
2) 분석 모형 선정 프로세스
- 문제 요건 정의: 대상 데이터 선정, 분석 목표 및 조건 정의
- 데이터 수집, 정리 및 도식화
- 데이터 전처리: 데이터 정제, 종속/독립 변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등
- 최적의 분석 모형 선정
1.2 분석 모형 정의
1) 분석 모형 종류
- 예측 분석 모형
- 현황 진단 모형
- 최적화 분석 모형
2) 분석 모형 정의를 위한 사전 고려사항
- 필요성, 파급 효과, 추진 시급성, 구현 가능성, 데이터 수집 가능성, 모델 확장성을 고려
- 데이터 확보 가능성을 판단하고 기존 사례 또는 솔루션 활용 검토
3) 분석 접근 방식
- 상향식 접근: 데이터 분석을 통해 인사이트 도출 → 의사결정 지점에서 분석 과제 발굴
- 하향식 접근: 문제 탐색 → 비즈니스 모델, 외부 참조 모델, 분석 유스케이스 기반 모델 적용
1.3 분석 모형 구축 절차
1) 분석 시나리오 작성
- 분석에 필요한 데이터, 절차, 기법 정의
- 분석 과정과 결과 활용 방안 명확화
2) 분석 모형 설계 및 검정
- 가설 검정 방법
- 유의 수준 결정, 귀무가설과 대립가설 설정
- 검정통계량 설정
- 기각역 설정: 검정통계량이 기각역에 위치하면 귀무가설 기각
- 검정통계량 계산: (표본평균 - 모평균) / 표본 표준편차
- 통계적 의사결정 수행 (양측검정, 단측검정)
- 추정 방법 기술 검토
참고: 통계 추정은 가설 검정과 관련 없음
02. 분석 환경 구축
2.1 분석 도구 선정
1) R
- 특징: 객체지향 언어, 고속 메모리 처리, 다양한 자료구조, 최신 패키지 제공, 시각화 기능
- 장점: 다양한 패키지 제공, 시각화 기능 강점
- 단점: 대용량 데이터 처리 어려움, 보안 취약, 웹 브라우저 연동 불가 (별도 모듈 필요)
2) 파이썬
- 특징: 플랫폼 독립적, 인터프리터식, 객체지향적 대화형 언어
- 장점: 문법이 간결하여 빠른 개발, 모듈 재사용 가능, 다른 언어와 높은 연동성
- 단점: 인터프리터 방식으로 실행 속도 느림 (JIT 컴파일러 사용 시 보완 가능)
2.2 데이터 분할
1) 데이터 분할 정의
- 학습 데이터 (training), 평가 데이터 (validation), 검증용 테스트 데이터 (test) 분할
- 일반적인 분할 비율: 7:3, 8:2 또는 4:3:3, 5:3:2
2) 평가 및 검증
- 평가 데이터: 분석 모델의 과대/과소 적합 여부 평가
- 검증용 테스트 데이터: 일반화된 분석 모형 최종 검증
3) 과대적합 및 과소적합
- 과대적합 방지 방법: 데이터 분할, k-fold 교차검증, 정규화 등
- 과소적합: 모형이 단순하여 충분히 학습하지 못하는 경우
- 일반화: 모델이 학습 데이터뿐만 아니라 새로운 데이터에도 높은 예측 정확도를 가지는 경우
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[P03CH02S02] 고급 분석 기법 (0) | 2025.03.18 |
---|---|
[P03CH02S01] ✨분석 기법 (feat. 인공지능, 빅데이터) (1) | 2025.03.17 |
Part 3: 빅데이터 모델링 (0) | 2025.03.16 |
[P02CH02S02] 추론통계 (0) | 2025.03.16 |
[P02CH03S01] 기술통계 (0) | 2025.03.16 |