728x90
반응형
PART02: 빅데이터 탐색
CHAPTER01: 데이터 전처리
[P02CH01S01] 데이터 정제
1. 데이터에 내재된 변수의 이해
1.1 데이터 관련 정의
- 데이터 (Data): 이론을 세우는 기초가 되는 사실 또는 자료. 컴퓨터와 연관되어 프로그램을 운용할 수 있는 정보. 데이터를 효과적으로 분석하고 활용하기 위해서는 이를 수집하고 저장하는 방법을 정확히 이해해야 합니다.
- 단위 (Unit): 관찰되는 항목 또는 대상을 지칭하며, 분석의 기본 단위로 사용됩니다.
- 관측값 (Observation): 각 조사 단위별 기록정보 또는 특성을 의미하며, 이를 통해 변수 간의 관계를 분석할 수 있습니다.
- 변수 (Variable): 각 단위에서 측정된 특성 결과로, 특정 대상이 가진 속성을 나타내는 요소입니다.
- 원자료 (Raw Data): 표본에서 조사된 최초의 자료로, 가공되지 않은 상태의 데이터를 의미합니다.
1.2. 데이터의 종류
데이터는 다양한 형태로 존재하며, 그 특성에 따라 다음과 같이 분류할 수 있습니다.
1) 단변량자료 (Univariate Data)
- 하나의 특성 변수를 포함한 데이터로, 단일 변수만을 분석하는 경우 사용됩니다.
2) 다변량자료 (Multivariate Data)
- 두 개 이상의 특성 변수를 포함한 데이터로, 변수 간 관계를 분석하는 데 사용됩니다.
3) 질적자료 (Qualitative Data)
- 정성적 또는 범주형 자료로, 수치보다는 특성에 따라 구분됩니다.
- 명목자료 (Nominal Data): 범주형 자료로, 수치나 기호로 구분됩니다. 예를 들면, 성별(남/여), 지역 번호 등이 있습니다.
- 서열자료 (Ordinal Data): 순서를 포함한 범주형 자료로, 고객 만족도 평가(1~5점)나 경기 순위 등이 이에 해당합니다.
4) 수치자료 (Quantitative Data)
- 정량적 데이터를 의미하며, 숫자의 크기에 의미를 부여할 수 있습니다.
- 구간자료 (Interval Data): 숫자로 표현되며, 변수 간의 산술적 관계가 성립하는 데이터. 예: 온도(°C, °F).
- 비율자료 (Ratio Data): 구간자료의 특성을 가지며, 절대적인 영점(0)이 존재하는 데이터. 예: 무게, 키, 거리.
5) 시계열자료 (Time Series Data)
- 일정한 시간 간격을 두고 수집된 데이터로, 주식 가격 변화나 기온 변화 분석 등에 사용됩니다.
6) 횡적자료 (Cross Sectional Data)
- 특정 시점에서 여러 개체를 대상으로 수집한 데이터로, 특정 시기의 인구 조사나 설문 조사 데이터가 이에 해당합니다.
7) 종적자료 (Longitudinal Data)
- 시계열자료와 횡적자료가 결합된 데이터로, 장기간에 걸쳐 여러 개체를 추적 조사한 데이터를 의미합니다.
2. 데이터 정제 (Data Cleaning)
2.1. 데이터 정제 개념
- 데이터 정제는 분석에 필요한 데이터를 추출하고 통합하는 과정으로, 데이터의 신뢰성을 높이는 중요한 단계입니다.
2.2. 데이터 정제 필요성
- 데이터의 일관성을 유지하여 분석 처리 효율성을 향상시키고, 결과의 신뢰성을 확보하기 위해 필요합니다.
2.3. 데이터 정제 과정
데이터 수집 | 데이터 입수 방법 결정, 저장소 결정 | 전처리 포함 |
데이터 변환 | 데이터 유형 변환 및 분석 가능 형태로 가공 | ETL, 정규화 |
데이터 교정 | 결측치 처리, 이상치 제거 | 필수적인 전처리 과정 |
데이터 통합 | 데이터 연계 및 통합 | 분석 환경 구축 |
2.4. 데이터 정제의 전처리 및 후처리
- 전처리: 데이터 저장 전 변환 및 입수 방식 결정.
- 후처리: 저장된 데이터의 품질 관리 및 이상 데이터 수정.
3. 데이터 결측값 처리 (Handling Missing Values)
3.1. 결측 데이터 종류
1) 완전 무작위 결측 (MCAR)
- 특정 변수의 결측치가 다른 변수와 관련이 없는 경우.
2) 무작위 결측 (MAR)
- 결측 데이터가 관측된 다른 변수와 연관이 있지만, 비관측 변수와는 연관되지 않는 경우.
3) 비무작위 결측 (NMAR)
- 결측 여부가 해당 변수 자체의 값과 관련된 경우.
3.2. 결측값 처리 방법
1) 단순 대치법
- 완전 분석: 결측 데이터가 있는 샘플을 제거하고 분석 수행.
- 평균 대치법: 결측값을 평균으로 대체하여 분석.
- 회귀 대치법: 회귀 분석을 통해 예측값으로 결측값 대체
- 최근접 대치법: 결측값과 가장 유사한 데이터를 사용하여 대체.
2) 다중 대치법
- 여러 개의 대치 데이터를 생성하고 평균을 통해 신뢰성을 확보.
4. 데이터 이상값 처리 (Outlier Handling)
4.1. 이상치의 종류 및 발생 원인
- 단변수 이상치: 단일 변수에서 발생하는 이상치.
- 다변수 이상치: 여러 변수 간의 관계에서 발생하는 이상치.
4.2. 이상치 탐지 기법
- 시각화 방법: 상자그림, 산점도를 통해 이상치 탐색.
- Z-Score 방법: 표준화 후 특정 임계값을 초과하는 데이터 식별.
- 밀도 기반 클러스터링 (DBSCAN): 특정 거리 내 데이터 개수를 기준으로 이상치 판단.
- 고립 의사나무 (Isolation Forest): 이상치의 분포 패턴을 분석하여 탐지.
상자 그림(box plot(박스 플롯))은 최댓값, 최솟값, 중앙값, 사분위수, 이상치 등을 알아보기 쉽게 나타내는 그래프입니다.
박스 아랫면 라인은 데이터 값의 1사분위수(=Q1, 25% 위치),
박스 중앙 라인은 2사분위수(=Q2, 중앙값, 50% 위치),
박스 윗면 라인은 3사분위수(=Q3, 75% 위치)를 가리킵니다.
위아래로 뻗은 선을 수염(whisker)이라고 하며, 수염 밖을 벗어난 점을 이상치(outlier)라고 합니다. (Q1 - 1.5 * 사분위수 범위)보다 작거나 (Q3 + 1.5 * 사분위수 범위)보다 크면 그 값을 이상치라고 하는데, 통계적으로 정상 범주에서 벗어난 값이라고 알아 둡니다.
5. 변수 선택 및 차원 축소
5.1. 변수 선택 방법
- 전진 선택법: 변수 하나씩 추가하여 유의한 변수 선택.
- 후진 선택법: 전체 변수에서 하나씩 제거하며 분석.
- 단계적 선택법: 전진 및 후진 선택법을 조합하여 적용.
5.2. 차원 축소 방법
1) 요인 분석 (Factor Analysis)
- 다수 변수의 정보를 유지하면서 적은 개수의 요인으로 축소.
2) 주성분 분석 (PCA)
- 데이터의 분산을 최대한 유지하면서 차원을 축소하는 기법.
3) 특이값 분해 (SVD)
- 데이터를 행렬 분해하여 주요 정보만 유지하는 방법.
4) 음수 미포함 행렬분해 (NMF)
- 음수가 없는 데이터를 두 개의 행렬로 분해하여 차원 축소.
마무리
이번 포스트에서는 데이터 정제, 결측값 처리, 이상값 탐지, 변수 선택 및 차원 축소에 대해 알아보았습니다. 데이터를 정제하는 과정이 분석의 정확도를 좌우하기 때문에, 이를 철저히 수행하는 것이 중요합니다.
다음 포스트에서는 데이터 변환과 통합 기법에 대해 다룰 예정이니 많은 관심 부탁드립니다! 🚀
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
✨ [P02CH02S01] 데이터 탐색 기초 (feat. 기초 통계량의 추출 및 이해) (0) | 2025.03.15 |
---|---|
[P02CH01S02] 분석 변수 처리 (0) | 2025.03.14 |
PART 2: 빅데이터 탐색 (0) | 2025.03.13 |
[P01CH02S02] 분석 작업 계획 (0) | 2025.03.12 |
[P01CH03S02] 데이터 적재 및 저장 (0) | 2025.03.12 |