728x90
반응형
PART 2: 빅데이터 탐색
1. 빅데이터 탐색 개요
빅데이터 탐색은 수집된 데이터를 이해하고 분석하기 위한 첫 번째 단계입니다. 데이터의 특성을 파악하고, 이상치(outlier)를 탐지하며, 데이터의 구조를 분석하여 이후 모델링 및 분석에 적합한 형태로 가공하는 과정입니다.
빅데이터 탐색의 주요 목표
- 데이터의 분포 및 특징 파악
- 결측치(missing value)와 이상치(outlier) 탐색 및 처리
- 변수 간 관계 분석
- 데이터 시각화를 통한 패턴 발견
2. 데이터 전처리
데이터 전처리는 빅데이터 분석의 성패를 결정짓는 중요한 과정입니다. 원본 데이터(raw data)는 다양한 오류와 결측값을 포함하고 있으며, 이를 정제해야 의미 있는 분석이 가능합니다.
주요 데이터 전처리 기법
- 결측치 처리
- 제거(Drop): 결측치가 포함된 행이나 열을 삭제
- 대체(Imputation): 평균, 중앙값, 최빈값, KNN 등을 활용하여 결측치를 대체
- 이상치 탐지 및 처리
- 이상치 탐지: Z-score, IQR(Interquartile Range), Box plot 등을 활용
- 이상치 처리: 이상치를 제거하거나 변환 (Winsorizing, Log transformation 등)
- 데이터 정규화(Normalization) 및 표준화(Standardization)
- Min-Max Scaling: 데이터를 0과 1 사이로 변환
- Z-score Standardization: 평균을 0, 표준편차를 1로 조정하여 정규 분포화
- 변수 변환(Feature Transformation)
- 로그 변환, 제곱근 변환 등을 활용하여 데이터 분포를 조정
- 범주형 데이터를 수치형으로 변환 (One-hot encoding, Label encoding)
3. 데이터 탐색 기법
기술통계(Descriptive Statistics)
기술통계는 데이터를 요약하고 이해하는 기본적인 방법으로, 주요 지표는 다음과 같습니다.
- 중심 경향성(Central Tendency): 평균(mean), 중앙값(median), 최빈값(mode)
- 산포도(Dispersion): 분산(variance), 표준편차(standard deviation), 범위(range), 사분위수(quartile)
- 분포 모양: 왜도(skewness), 첨도(kurtosis)
시각화(Visualization) 기법
데이터를 효과적으로 이해하기 위해 다양한 시각화 방법을 활용합니다.
- 단변수(Univariate) 분석
- 히스토그램(Histogram): 데이터 분포 확인
- 박스플롯(Box plot): 이상치 탐지
- 막대그래프(Bar chart): 범주형 변수의 빈도 분석
- 이변수(Bivariate) 분석
- 산점도(Scatter plot): 두 변수 간 관계 분석
- 상관 행렬(Correlation Matrix) 및 히트맵(Heatmap): 변수 간 상관관계 확인
- 바이올린 플롯(Violin plot): 데이터 분포 비교
- 다변수(Multivariate) 분석
- 페어플롯(Pairplot): 여러 변수 간 관계 시각화
- 주성분 분석(PCA, Principal Component Analysis): 고차원 데이터를 저차원으로 축소하여 패턴 분석
4. 차원 축소(Dimensionality Reduction)
빅데이터에서는 변수(Feature)의 개수가 많아질수록 분석이 복잡해집니다. 따라서, 차원 축소를 통해 핵심 정보만 유지하면서 분석을 수행할 수 있습니다.
차원 축소 기법
- 주성분 분석(PCA, Principal Component Analysis)
- 데이터의 분산을 최대한 보존하는 방향으로 차원을 축소하는 기법
- 고차원 데이터를 저차원 공간으로 변환하여 시각화 및 모델 성능 개선 가능
- 선형판별분석(LDA, Linear Discriminant Analysis)
- 클래스 간 변별력을 극대화하는 방식으로 차원 축소
- 특이값 분해(SVD, Singular Value Decomposition)
- 행렬을 특이값(Singular Value)과 고유 벡터로 분해하여 차원 축소
- t-SNE (t-Distributed Stochastic Neighbor Embedding)
- 데이터의 유사성을 유지하면서 2차원 혹은 3차원으로 차원 축소
- 군집(Cluster) 분석 및 데이터 패턴 시각화에 유용
5. 데이터 이상 탐지
이상 탐지는 비정상적인 데이터를 찾아내는 과정으로, 데이터 정제 및 분석 결과의 신뢰성을 높이는 데 필수적입니다.
이상 탐지 기법
- 통계적 방법
- 평균과 표준편차를 이용한 Z-score 방법
- 사분위수(IQR, Interquartile Range)를 이용한 Box plot 기반 이상 탐지
- 기계 학습 기반 방법
- 밀도 기반 이상 탐지: DBSCAN, LOF(Local Outlier Factor)
- 분류 기반 이상 탐지: SVM, Decision Tree
- 딥러닝 기반 이상 탐지: Autoencoder, GAN(Generative Adversarial Networks)
6. 데이터 탐색의 중요성
- 데이터의 품질 향상: 이상값과 결측값을 제거하여 신뢰할 수 있는 분석 가능
- 모델 성능 향상: 적절한 전처리와 차원 축소를 통해 학습 속도 및 예측력 개선
- 데이터 기반 의사 결정: 데이터의 분포 및 관계를 분석하여 효과적인 전략 수립
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[P02CH01S02] 분석 변수 처리 (0) | 2025.03.14 |
---|---|
[P02CH01S01] 데이터 정제 (1) | 2025.03.13 |
[P01CH02S02] 분석 작업 계획 (0) | 2025.03.12 |
[P01CH03S02] 데이터 적재 및 저장 (0) | 2025.03.12 |
[P01CH03S01] 데이터 수집 및 전환 (0) | 2025.03.12 |