본문 바로가기
자격증/빅데이터분석기사

[P02CH01S01] 데이터 정제

by rnasterofmysea 2025. 3. 13.
728x90
반응형

PART02: 빅데이터 탐색

CHAPTER01: 데이터 전처리

 

[P02CH01S01] 데이터 정제


1. 데이터에 내재된 변수의 이해

1.1 데이터 관련 정의

  • 데이터 (Data): 이론을 세우는 기초가 되는 사실 또는 자료. 컴퓨터와 연관되어 프로그램을 운용할 수 있는 정보. 데이터를 효과적으로 분석하고 활용하기 위해서는 이를 수집하고 저장하는 방법을 정확히 이해해야 합니다.
  • 단위 (Unit): 관찰되는 항목 또는 대상을 지칭하며, 분석의 기본 단위로 사용됩니다.
  • 관측값 (Observation): 각 조사 단위별 기록정보 또는 특성을 의미하며, 이를 통해 변수 간의 관계를 분석할 수 있습니다.
  • 변수 (Variable): 각 단위에서 측정된 특성 결과로, 특정 대상이 가진 속성을 나타내는 요소입니다.
  • 원자료 (Raw Data): 표본에서 조사된 최초의 자료로, 가공되지 않은 상태의 데이터를 의미합니다.

1.2. 데이터의 종류

데이터는 다양한 형태로 존재하며, 그 특성에 따라 다음과 같이 분류할 수 있습니다.

1) 단변량자료 (Univariate Data)

  • 하나의 특성 변수를 포함한 데이터로, 단일 변수만을 분석하는 경우 사용됩니다.

2) 다변량자료 (Multivariate Data)

  • 두 개 이상의 특성 변수를 포함한 데이터로, 변수 간 관계를 분석하는 데 사용됩니다.

3) 질적자료 (Qualitative Data)

  • 정성적 또는 범주형 자료로, 수치보다는 특성에 따라 구분됩니다.
  • 명목자료 (Nominal Data): 범주형 자료로, 수치나 기호로 구분됩니다. 예를 들면, 성별(남/여), 지역 번호 등이 있습니다.
  • 서열자료 (Ordinal Data): 순서를 포함한 범주형 자료로, 고객 만족도 평가(1~5점)나 경기 순위 등이 이에 해당합니다.

4) 수치자료 (Quantitative Data)

  • 정량적 데이터를 의미하며, 숫자의 크기에 의미를 부여할 수 있습니다.
  • 구간자료 (Interval Data): 숫자로 표현되며, 변수 간의 산술적 관계가 성립하는 데이터. 예: 온도(°C, °F).
  • 비율자료 (Ratio Data): 구간자료의 특성을 가지며, 절대적인 영점(0)이 존재하는 데이터. 예: 무게, 키, 거리.

5) 시계열자료 (Time Series Data)

  • 일정한 시간 간격을 두고 수집된 데이터로, 주식 가격 변화나 기온 변화 분석 등에 사용됩니다.

6) 횡적자료 (Cross Sectional Data)

  • 특정 시점에서 여러 개체를 대상으로 수집한 데이터로, 특정 시기의 인구 조사나 설문 조사 데이터가 이에 해당합니다.

7) 종적자료 (Longitudinal Data)

  • 시계열자료와 횡적자료가 결합된 데이터로, 장기간에 걸쳐 여러 개체를 추적 조사한 데이터를 의미합니다.

 


2. 데이터 정제 (Data Cleaning)

 

2.1. 데이터 정제 개념

  • 데이터 정제는 분석에 필요한 데이터를 추출하고 통합하는 과정으로, 데이터의 신뢰성을 높이는 중요한 단계입니다.

 

2.2. 데이터 정제 필요성

  • 데이터의 일관성을 유지하여 분석 처리 효율성을 향상시키고, 결과의 신뢰성을 확보하기 위해 필요합니다.

 

2.3. 데이터 정제 과정

데이터 수집 데이터 입수 방법 결정, 저장소 결정 전처리 포함
데이터 변환 데이터 유형 변환 및 분석 가능 형태로 가공 ETL, 정규화
데이터 교정 결측치 처리, 이상치 제거 필수적인 전처리 과정
데이터 통합 데이터 연계 및 통합 분석 환경 구축

 

2.4. 데이터 정제의 전처리 및 후처리

  • 전처리: 데이터 저장 전 변환 및 입수 방식 결정.
  • 후처리: 저장된 데이터의 품질 관리 및 이상 데이터 수정.

 


3. 데이터 결측값 처리 (Handling Missing Values)

 

3.1. 결측 데이터 종류

1) 완전 무작위 결측 (MCAR)

  • 특정 변수의 결측치가 다른 변수와 관련이 없는 경우.

2) 무작위 결측 (MAR)

  • 결측 데이터가 관측된 다른 변수와 연관이 있지만, 비관측 변수와는 연관되지 않는 경우.

3) 비무작위 결측 (NMAR)

  • 결측 여부가 해당 변수 자체의 값과 관련된 경우.

 

3.2. 결측값 처리 방법

 

1) 단순 대치법

  • 완전 분석: 결측 데이터가 있는 샘플을 제거하고 분석 수행.
  • 평균 대치법: 결측값을 평균으로 대체하여 분석.
  • 회귀 대치법: 회귀 분석을 통해 예측값으로 결측값 대체
  • 최근접 대치법: 결측값과 가장 유사한 데이터를 사용하여 대체.

 

2) 다중 대치법

  • 여러 개의 대치 데이터를 생성하고 평균을 통해 신뢰성을 확보.

 


4. 데이터 이상값 처리 (Outlier Handling)

 

4.1. 이상치의 종류 및 발생 원인

  • 단변수 이상치: 단일 변수에서 발생하는 이상치.
  • 다변수 이상치: 여러 변수 간의 관계에서 발생하는 이상치.

 

4.2. 이상치 탐지 기법

  • 시각화 방법: 상자그림, 산점도를 통해 이상치 탐색.
  • Z-Score 방법: 표준화 후 특정 임계값을 초과하는 데이터 식별.
  • 밀도 기반 클러스터링 (DBSCAN): 특정 거리 내 데이터 개수를 기준으로 이상치 판단.
  • 고립 의사나무 (Isolation Forest): 이상치의 분포 패턴을 분석하여 탐지.

 

상자 그림(box plot(박스 플롯))은 최댓값, 최솟값, 중앙값, 사분위수, 이상치 등을 알아보기 쉽게 나타내는 그래프입니다. 

박스 아랫면 라인은 데이터 값의 1사분위수(=Q1, 25% 위치),
박스 중앙 라인은 2사분위수(=Q2, 중앙값, 50% 위치),
박스 윗면 라인은 3사분위수(=Q3, 75% 위치)를 가리킵니다.

위아래로 뻗은 선을 수염(whisker)이라고 하며, 수염 밖을 벗어난 점을 이상치(outlier)라고 합니다. (Q1 - 1.5 * 사분위수 범위)보다 작거나 (Q3 + 1.5 * 사분위수 범위)보다 크면 그 값을 이상치라고 하는데, 통계적으로 정상 범주에서 벗어난 값이라고 알아 둡니다.


5. 변수 선택 및 차원 축소

 

5.1. 변수 선택 방법

  • 전진 선택법: 변수 하나씩 추가하여 유의한 변수 선택.
  • 후진 선택법: 전체 변수에서 하나씩 제거하며 분석.
  • 단계적 선택법: 전진 및 후진 선택법을 조합하여 적용.

 

5.2. 차원 축소 방법

1) 요인 분석 (Factor Analysis)

  • 다수 변수의 정보를 유지하면서 적은 개수의 요인으로 축소.

2) 주성분 분석 (PCA)

  • 데이터의 분산을 최대한 유지하면서 차원을 축소하는 기법.

3) 특이값 분해 (SVD)

  • 데이터를 행렬 분해하여 주요 정보만 유지하는 방법.

4) 음수 미포함 행렬분해 (NMF)

  • 음수가 없는 데이터를 두 개의 행렬로 분해하여 차원 축소.

마무리

이번 포스트에서는 데이터 정제, 결측값 처리, 이상값 탐지, 변수 선택 및 차원 축소에 대해 알아보았습니다. 데이터를 정제하는 과정이 분석의 정확도를 좌우하기 때문에, 이를 철저히 수행하는 것이 중요합니다.

다음 포스트에서는 데이터 변환과 통합 기법에 대해 다룰 예정이니 많은 관심 부탁드립니다! 🚀

728x90
반응형