본문 바로가기
자격증/빅데이터분석기사

✨ [P02CH02S01] 데이터 탐색 기초 (feat. 기초 통계량의 추출 및 이해)

by rnasterofmysea 2025. 3. 15.
728x90
반응형

PART02: 빅데이터 탐색

CHAPTER02: 데이터 탐색

 

 

[P02CH02S01] 데이터 탐색 기초


1. 데이터 탐색의 개요 (Exploratory Data Analysis, EDA)

 

1.1 탐색적 데이터 분석(EDA, Exploratory Data Analysis)

탐색적 데이터 분석(EDA)는 데이터를 분석하기 전에 전반적인 분포, 패턴, 이상치(Outlier) 등을 탐색하는 과정을 의미합니다.
EDA의 목적은 데이터의 구조를 이해하고, 모델링 전 데이터를 정제하며, 가설을 설정하는 것입니다.

 

📌 EDA의 주요 활동:

  • 데이터 분포 확인 (히스토그램, 박스플롯)
  • 이상치 검출
  • 결측치 처리
  • 변수 간 관계 분석 (상관관계)
  • 데이터의 대표값(평균, 중앙값, 최빈값) 및 분산 분석

1.2 탐색적 데이터 분석의 필요성

EDA를 수행하면 데이터가 내재한 잠재적 문제를 사전에 파악하고 해결책을 마련할 수 있습니다.
EDA를 수행하지 않으면 이상치, 결측치, 편향(Bias) 등의 문제로 인해 모델의 성능이 저하될 위험이 있습니다.

📌 EDA의 주요 필요성:

  1. 데이터의 품질 확인:
    • 데이터가 올바르게 수집되었는지 확인
    • 결측치와 이상치 탐색
  2. 모델링에 적절한 데이터인지 평가:
    • 변수 간 관계 파악
    • 데이터 변환 및 정규화 필요 여부 확인
  3. 잠재적 문제 해결:
    • 이상값 조정, 변수 변환, 스케일링 수행

1.3 분석 과정 및 절차

EDA의 기본 절차는 다음과 같습니다.

 

📌 EDA 절차:

  1. 데이터 로드 및 구조 확인
    • 데이터 크기 확인 (.shape)
    • 변수명 및 데이터 타입 확인 (.info())
  2. 기술 통계량 확인
    • describe()를 활용하여 평균, 중앙값, 분산, 사분위수 확인
  3. 결측치 및 이상치 탐색
    • isnull().sum()으로 결측치 개수 확인
    • 이상치는 박스플롯(Boxplot) 활용
  4. 변수 간 관계 탐색
    • 상관관계 분석 (Pearson, Spearman)
    • 시각화를 통해 변수 간 패턴 확인

1.4 이상치(Outlier) 검출

이상치는 데이터의 패턴과 동떨어진 값으로, 모델 성능 저하의 주요 원인이 됩니다.
이상치를 탐색하는 방법은 다음과 같습니다.

1) 개별 데이터 관찰

  • 직접 데이터를 샘플링하여 확인 (head(), tail() 활용)

2) 통계값 활용 (IQR, 정규분포 활용)

📌 사분위수 범위 (IQR, Interquartile Range) 활용:

  • 이상치는 1사분위(Q1) 및 3사분위(Q3)를 기준으로 탐색

📌 정규분포 활용:

  • 평균(μ)과 표준편차(σ)를 활용하여 3σ 이상 벗어난 값을 이상치로 간주 

3) 시각화 활용

  • 박스플롯(Boxplot): 이상치를 눈으로 쉽게 확인 가능
  • 히스토그램(Histogram): 데이터의 분포를 확인 가능
  • QQ-Plot: 데이터가 정규성을 따르는지 확인 가능

4) 머신러닝 기법 활용

  • K-Means 클러스터링: 이상치는 군집 중심과 멀리 떨어진 값
  • Isolation Forest: 이상치를 탐지하는 머신러닝 모델

2. 상관관계 분석 (Correlation Analysis)

 

2.1 변수 간의 상관성 분석

상관관계 분석은 두 변수 간의 관계 정도를 분석하는 기법입니다.
두 변수 간 값이 함께 변하는 패턴이 있는지 평가하며, 주요 기법은 다음과 같습니다.

 

1) 단순 상관 분석 (Simple Correlation Analysis)

  • 두 개의 변수 간 상관관계를 분석하는 가장 기본적인 방법.
  • 예: 키와 몸무게 간의 상관관계.

2) 다중 상관 분석 (Multiple Correlation Analysis)

  • 여러 개의 독립변수와 하나의 종속변수 간의 상관관계를 분석.
  • 예: 키, 나이, 운동량과 체중의 상관관계 분석.

3) 편상 상관 분석 (Partial Correlation Analysis)

  • 특정 변수를 통제한 상태에서 두 변수 간 상관관계를 분석.
  • 예: 나이를 통제하고 키와 몸무게의 상관관계 분석.

2.2 상관분석의 기본 가정

상관 분석을 수행할 때는 다음 조건을 만족해야 합니다.

 

📌 상관 분석의 기본 가정:

  1. 선형성(Linearity): 두 변수 간 선형적인 관계가 있어야 함.
  2. 등분산성(Homoscedasticity): 데이터의 분산이 일정해야 함.
  3. 정규성(Normality): 변수가 정규 분포를 따라야 함.
  4. 독립성(Independence): 데이터가 독립적이어야 함.

2.3 상관 분석 방법

1) 피어슨 상관계수 (Pearson Correlation Coefficient)

 

📌 개념:

  • 두 변수 간 선형적 관계를 측정하는 가장 일반적인 방법.
  • -1 ≤ r ≤ 1의 값을 가지며, 값이 1에 가까울수록 강한 양의 상관관계를 의미.

이기직 빅데이터 분석기사 P.243

📌 해석:

값  해석
r = 1 완벽한 양의 상관관계
0.7 ≤ r < 1 강한 양의 상관관계
0.3 ≤ r < 0.7 중간 정도의 양의 상관관계
0 ≤ r < 0.3 약한 양의 상관관계
r = 0 상관관계 없음
-0.3 ≤ r < 0 약한 음의 상관관계
-0.7 ≤ r < -0.3 중간 정도의 음의 상관관계
-1 ≤ r < -0.7 강한 음의 상관관계

 

제한점:

  • 선형 관계만 측정 가능, 비선형 관계는 측정 불가.
  • 이상치에 민감함.

2) 스피어만 상관계수 (Spearman Rank Correlation)

 

📌 개념:

  • 데이터가 정규 분포를 따르지 않거나 비선형 관계일 때 사용.
  • 변수의 순위(Rank)를 기반으로 상관관계를 측정.
  • 공식: 

 

📌 특징:

  • 선형이 아닌 관계도 탐색 가능.

이상치에 덜 민감.


3. 기초 통계량의 추출 및 이해

 

자료를 수집하여 요약 정리하는 기초통계(또는 기술통계)는 자료의 특성을 정량 적인 수치에 의해서 나타내는 방법이다. 자료의 특성을 중심화 경향(Central Tendency), 퍼짐 정도(산포도 분산도), 자료의 분포형태(Shape of Distribution) 등의 수치적 결과로 나타낼 수 있다.


3.1. 중심화 경향 기초통계량

 

 

1) 산술평균 (Arithmetic Mean)

 

📌 정의

  • 모든 데이터 값을 합한 후 데이터 개수로 나눈 값을 의미합니다.
  • 모평균(Population Mean)표본평균(Sample Mean)으로 구분됩니다.

📌 공식

📌 특징

  • 변화율 평균을 구할 때 사용됨.
  • 이상치(Outlier)에 영향을 많이 받음 → 극단값이 있을 경우 중앙값을 고려해야 함.

 

2) 기하평균 (Geometric Mean)

 

📌 정의

  • 여러 개의 수를 곱한 후, 그 값의 n제곱근을 취한 값.
  • 비율 데이터 또는 성장률 평균을 계산할 때 사용.

📌 공식


📌 특징

  • 비율, 성장률, 지수적 증가를 다룰 때 사용.
  • 이상치의 영향을 산술평균보다 덜 받음.
  • 모든 값이 양수(> 0)여야 계산 가능.

📌 활용 예시

  • 경제학: 투자 수익률, GDP 성장률 등.
  • 금융: 복리 이자율 평균.

 

3) 조화평균 (Harmonic Mean)

 

📌 정의

  • 여러 개의 값의 역수를 평균 낸 후, 다시 역수를 취한 값.

📌 공식

 

📌 특징

  • 작은 값이 클수록 평균값에 더 큰 영향을 미침.
  • 속도, 밀도 등에서 유용.
  • 이상치에 영향을 받을 수 있음.

 


4) 중앙값 (Median)

 

📌 정의

  • 데이터를 크기순으로 정렬했을 때 가운데 위치하는 값을 의미합니다.

📌 계산 방법

 

📌 특징

  • 이상치에 영향을 받지 않음 (평균보다 강건한 척도).
  • 데이터의 중심값을 나타내며, 분포가 치우친 경우 평균보다 대표성이 높음.

5) 최빈값 (Mode)

 

📌 정의

  • 가장 많이 나타나는 값을 의미합니다.
  • 질적(범주형) 데이터에도 적용 가능.

📌 특징

  • 데이터가 정규분포일 경우 평균 ≈ 중앙값 ≈ 최빈값.
  • 데이터 분포를 분석할 때 유용하며, 이상치의 영향을 받지 않음.

6) 분위수 (Quantile)

 

📌 정의: 자료를 크기순으로 정렬한 후, 특정 위치에서 데이터를 나누는 값을 의미합니다.

 


 

3.2. 산포도(분산도, Degree Dispersion)

📌 산포도(Dispersion)데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 척도입니다.
단순히 평균(중심 경향)만 확인하는 것보다 데이터의 분포 특성을 파악하는 데 필수적인 요소입니다.

 

 산포도의 주요 지표

산포도 지표 설명  특징
분산 (Variance) 데이터의 퍼짐 정도를 나타내는 지표 단위가 제곱 형태
표준편차 (Standard Deviation) 분산의 제곱근 원래 단위를 유지하여 해석이 용이
범위 (Range) 최대값 - 최소값 이상치에 민감
평균 절대 편차 (MAD) 평균과의 절대 편차의 평균 이상치 영향을 덜 받음
사분위 범위 (IQR) Q3 - Q1 이상치 탐색에 유용
변동계수 (CV) 표준편차 / 평균 상대적 변동성 비교 가능

1) 분산(Variance)과 표준편차(Standard Deviation)

1-1) 분산(Variance)

 

📌 정의

  • 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값.
  • 개별 데이터와 평균 간 차이를 제곱하여 평균을 구한 값.

📌 공식

📌 특징

  • 값이 클수록 데이터가 더 퍼져 있음.
  • 제곱된 단위 사용 → 해석이 어려움.
  • 이상치에 민감함.


1-2) 표준편차(Standard Deviation)

 

📌 정의

  • 분산의 제곱근을 취한 값.
  • 원래 데이터와 동일한 단위를 유지하여 해석이 용이함.

📌 공식

📌 특징

  • 값이 클수록 데이터의 변동성이 큼.
  • 이상치의 영향을 받음.
  • 금융, 품질 관리, 과학 연구 등 다양한 분야에서 사용.


1-3) 범위(Range)

 

📌 정의

  • 데이터의 최대값과 최소값 차이.
  • 값이 클수록 데이터의 퍼짐 정도가 큼.

📌 특징

  • 계산이 간단하지만, 이상치(Outlier)에 매우 민감함.

 


1-4) 평균 절대 편차 (MAD: Mean Absolute Deviation)

 

📌 정의

  • 각 데이터와 평균 간 절대 편차의 평균.
  • 분산 및 표준편차보다 이상치 영향을 덜 받음.

📌 특징

  • 이상치의 영향을 덜 받음.
  • 하지만 절대값 연산이 많아 수리적으로 불편함.
  • 중앙값 절대 편차(Median Absolute Deviation, MAD)를 사용하는 경우도 많음.

1-5) 사분위 범위 (IQR: Interquartile Range)

 

 

예제
데이터: 8, 10, 12, 13, 15, 17, 17, 18, 19, 23, 24

  • Q1 = 12, Q3 = 19
  • IQR = 19 - 12 = 7

📌 활용

  • 이상치 탐색.
  • 데이터의 변동성이 적절한지 판단.

 


1-6) 변동계수(CV: Coefficient of Variation)

📌 정의

  • 평균 대비 표준편차의 비율을 나타냄.

📌 특징

  • 평균이 다른 두 데이터 집단의 상대적 변동성을 비교할 때 사용.
  • 측정 단위가 다른 경우 상대적 변동성을 평가하는 데 유용.

예제

 

📌 해석

  • CV가 높을수록 변동성이 크고 위험성이 높음.
  • 포트폴리오 B가 상대적으로 더 변동성이 큼.

3.3. 자료의 분포형태

 

1) 왜도 (Skewness)

왜도는 데이터 분포의 비대칭성을 측정하는 통계적 지표입니다.
즉, 데이터가 평균을 중심으로 얼마나 치우쳐 있는지를 나타냅니다.

  • 왜도가 0인 경우: 완전한 대칭 분포 (정규분포)
  • 왜도가 양수(>0)인 경우: 오른쪽으로 치우친 분포 (우측 긴 꼬리)
  • 왜도가 음수(<0)인 경우: 왼쪽으로 치우친 분포 (좌측 긴 꼬리)

https://www.oppadu.com/wp-content/uploads/2021/02/%EC%97%91%EC%85%80-skew-%ED%95%A8%EC%88%98-%EC%99%9C%EB%8F%84-%EC%84%A4%EB%AA%85-600x246.png

 

2) 첨도 (Kurtosis)

첨도는 데이터 분포의 뾰족한 정도를 나타내는 통계적 지표입니다.

  • 첨도가 0인 경우: 정규분포와 유사한 분포
  • 첨도가 양수(>0)인 경우: 정규분포보다 더 뾰족한 분포 (급첨분포)
  • 첨도가 음수(<0)인 경우: 정규분포보다 더 평평한 분포 (완만분포)

https://mblogthumb-phinf.pstatic.net/MjAyMDA4MjZfMTE3/MDAxNTk4NDQwNjUwMzE3.VYWmRQKWutFcFtnNRRkJb8pqjPEwU876QObzOcSwtWcg.Pzh1GRXDRX0BfH8gJlAMH-2HGkmtKKYrIu6iiJzNlPIg.PNG.yjhead/image.png?type=w800

 


3.4. 시각적 데이터 탐색

 

 

데이터를 이해하고 분석하기 위해 다양한 시각적 도구를 활용합니다.

 

 

 

1) 통계적 시각화 도구

1-1) 도수분포표 (Frequency Table)

  • 데이터를 특정 구간으로 나누고 각 구간에 속하는 데이터 개수를 나타낸 표
  • 데이터 분포를 요약하는 데 유용함

https://mydatanote.tistory.com/10

 

STEP1. 최댓값, 최솟값 계산

STEP2. 최댓값, 최솟값을 포함하여 데이터를 특정 범위(계급)으로 나눠준다.

STEP3. 각 계급을 대표하는 수치(계급값)를 정한다.

STEP4. 각 계급에 포함된 데이터 개수(도수)를 센다.

STEP5. 각 계급의 도수가 전체에서 차지하는 비율(상대도수)을 계산한다.

STEP6. 특정 계급까지의 도수를 모두 합한다. (누적도수)

 

1-2) 히스토그램 (Histogram)

  • 도수분포표를 그래프로 표현한 것
  • 가로축(연속형 변수)과 세로축(빈도수)으로 구성
  • 분포의 형태를 한눈에 파악 가능

https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FOgk3i%2Fbtrk5OsfR9G%2FPfZRoqaLwtMXgokHfF0K80%2Fimg.png

 

1-3) 막대 그래프 (Bar Chart)

  • 범주형 데이터의 빈도를 시각적으로 표현
  • 각 범주별 데이터 개수를 비교하기 용이

 

https://t3.gstatic.com/licensed-image?q=tbn:ANd9GcR9uVlP_4BZpw0XqS9FQrHKiKos2B-vh5P-ArDm21cG1GwWdBNUZCH1kbfmUhiPWiEV

 

1-4) 파이 차트 (Pie Chart)

  • 전체 대비 각 항목의 비율을 원형 차트로 표현
  • 시각적으로 비교하기 쉽지만, 세부적인 비교에는 부적절

https://wikidocs.net/92114

 

1-5) 산점도 (Scatter Plot)

  • 두 변수 간의 관계를 점으로 나타낸 그래프
  • 변수 간 상관관계를 파악하는 데 유용

https://otexts.com/fppkr/graphics-scatterplots.html

 

1-6) 줄기-잎 그림 (Stem-and-Leaf Plot)

  • 데이터를 줄기(stem)와 잎(leaf)으로 나누어 나타냄
  • 데이터의 분포를 한눈에 파악 가능하며, 원본 데이터도 포함

 

https://namu.wiki/w/%EC%A4%84%EA%B8%B0%EC%99%80%20%EC%9E%8E%20%EA%B7%B8%EB%A6%BC

 

 

1-7) 상자 수염 그림 (Box Plot)

  • 데이터의 분포와 이상치를 한눈에 보여주는 그래프
  • 중앙값, 사분위 범위, 이상치(outlier) 등을 나타냄
  • 데이터의 분포와 대칭성, 이상값을 탐색하는 데 유용

 

통계의 본질 님의 블로그 포스트가 도움이 많이 되었습니다.

https://hsm-edu.tistory.com/1542#google_vignette

 

[분위수의 이해] 1. 상자수염그림 쉽고 자세한 설명

상자수염그림은 아래와 같은 그래프를 말합니다. 살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살

hsm-edu.tistory.com

 

 

https://hsm-edu.tistory.com/1542#google_vignette

이상치

 예제
데이터: 8, 10, 12, 13, 15, 17, 17, 18, 19, 23, 24

  • Q1 = 12, Q3 = 19
  • IQR = 19 - 12 = 7
728x90
반응형

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[P02CH03S01] 기술통계  (0) 2025.03.16
[P02CH02S02] 고급 데이터 탐색  (0) 2025.03.15
[P02CH01S02] 분석 변수 처리  (0) 2025.03.14
[P02CH01S01] 데이터 정제  (1) 2025.03.13
PART 2: 빅데이터 탐색  (0) 2025.03.13