본문 바로가기
자격증/빅데이터분석기사

[P02CH02S02] 고급 데이터 탐색

by rnasterofmysea 2025. 3. 15.
728x90
반응형

PART02: 빅데이터 탐색

CHAPTER02: 데이터 탐색

 

[P02CH02S02] 고급 데이터 탐색


1. 시공간 데이터 탐색 (Spatiotemporal Data Exploration)

시공간 데이터는 공간적 정보(위치 데이터)에 시간의 흐름(이력 정보 등)이 결합된 다차원 데이터입니다. 즉, 특정 시점에서의 위치 정보뿐만 아니라 시간이 지남에 따라 변화하는 패턴도 분석할 수 있습니다.

1.1 시간 데이터 (Temporal Data)

시간과 관련된 데이터로, 다음과 같은 유형이 있습니다.

  • 유효시간 (Valid Time): 특정 데이터가 유효한 기간 (예: 계약 기간)
  • 거래시간 (Transaction Time): 데이터가 데이터베이스에 저장되거나 변경된 시간
  • 사용자 정의 시간 (User-defined Time): 특정 사용자가 지정한 임의의 시간
  • 이원 시간 데이터 (Bitemporal Data): 유효시간과 거래시간을 함께 고려하는 데이터

 

1.2 공간 데이터 (Spatial Data)

공간 데이터를 표현하는 방식은 다음과 같습니다.

  • 레스터 공간 타입 (Raster Spatial Type): 픽셀 기반 데이터 (예: 위성 이미지, 지형 데이터)
  • 벡터 공간 타입 (Vector Spatial Type): 점, 선, 다각형 등 기하학적 객체로 표현 (예: 도로, 건물)
  • 기하학적 타입 (Geometric Type): 공간상의 위치 및 형태를 표현 (예: GPS 좌표)
  • 위상적 타입 (Topological Type): 공간 객체 간의 연결 관계를 나타냄 (예: 도로망의 네트워크 관계)

 

1.3 공간 데이터 모델 (Spatial Data Models)

공간 데이터를 저장하고 처리하는 방식에 따라 다음과 같은 모델이 존재합니다.

  • 관계형 모델 (Relational Model): 전통적인 데이터베이스 모델, 공간 데이터를 테이블 형식으로 저장 (예: PostgreSQL + PostGIS)
  • 객체지향 모델 (Object-Oriented Model): 공간 객체를 직접 표현할 수 있는 데이터 모델 (예: GIS 시스템)

2. 다변량 데이터 탐색 (Multivariate Data Exploration)

다변량 데이터 탐색은 여러 개의 변수를 동시에 고려하여 데이터를 분석하는 과정입니다.

 

2.1 종속변수와 독립변수 사이의 인과 관계

변수 간의 관계를 분석하는 대표적인 방법은 다음과 같습니다.

  1. 다중 회귀 (Multiple Regression)
    • 여러 개의 독립 변수를 이용하여 하나의 종속 변수를 예측
    • 예: 집값 예측 (면적, 방 개수, 위치 등 여러 변수를 고려)
  2. 로지스틱 회귀 (Logistic Regression)
    • 종속 변수가 이진형(0 또는 1)인 경우에 사용
    • 예: 이메일이 스팸인지 여부 (1: 스팸, 0: 정상)
    • 시그모이드(Sigmoid) 함수를 사용하여 확률 값을 출력
  3. 분산분석 (Analysis of Variance, ANOVA)
    • 여러 그룹 간 평균 차이가 유의미한지 검정하는 방법
    • 일원 분산분석 (One-way ANOVA): 한 가지 요인(factor)에 따른 평균 차이 분석
  4. 다변량 분산분석 (Multivariate Analysis of Variance, MANOVA)
    • 여러 개의 종속 변수에 대한 분석
    • 이원 분산분석 (Two-way ANOVA): 두 가지 요인(factor)의 영향 분석

2.2 공분산과 독립성 관계

두 변수 간의 관계를 수치적으로 측정하는 방법 중 하나가 공분산(Covariance)입니다.

  • 공분산이 0인 경우: 두 변수 간의 선형 관계가 없음을 의미
  • 하지만, 공분산이 0이라고 해서 항상 독립적인 관계는 아니다.

독립성과 공분산의 관계

  • 두 확률변수 가 상호 독립이면 공분산이 0이 됩니다. Cov(A,B) = 0
  • 하지만, 공분산이 0이라고 해서 항상 독립이라고 할 수는 없습니다.
    (비선형 관계가 존재할 수도 있기 때문)

 

2.3. 두 확률분포 간의 독립성 확인 (Checking Independence Between Two Probability Distributions)

 

1) 분포 독립성 확인

두 확률변수 X 가 독립이라면, 결합 확률 분포(Joint Probability Distribution)가 개별 확률 분포의 곱과 같아야 합니다.

 

P(X,Y) = P(X) × P(Y)

 

즉, 특정 사건이 발생할 확률이 다른 사건의 발생 여부에 영향을 받지 않으면 두 변수는 독립입니다.

2) 공분산 및 상관계수 확인

  • 공분산 (Covariance)
    • 공분산이 0이면 두 변수가 선형적 관계가 없음을 의미하지만, 독립성까지 보장하지는 않음
  • 상관계수 (Correlation Coefficient)
    • 상관계수가 0이면 두 변수가 독립적일 가능성이 있지만, 반드시 그런 것은 아님 (비선형 관계가 있을 수 있음)

 

2.4 변수축약 (Dimensionality Reduction)

변수축약은 다차원 데이터를 보다 적은 변수로 변환하여 데이터의 본질적인 구조를 유지하면서 분석을 용이하게 하는 기법입니다.

 

1) 주성분 분석 (Principal Component Analysis, PCA)

  • 고차원의 데이터를 저차원의 축으로 변환하여 데이터의 분산을 최대화하는 방식
  • 데이터의 상관관계를 분석하여 **주성분(Principal Components)**을 추출
  • 목적: 차원을 축소하면서도 데이터의 정보 손실을 최소화

PCA 과정

  1. 데이터 표준화 (평균 0, 분산 1)
  2. 공분산 행렬 계산
  3. 공분산 행렬의 고유값과 고유벡터 계산
  4. 주성분 선택 (설명력이 높은 주성분 선택)
  5. 차원 축소된 데이터 변환

 

2) 요인 분석 (Factor Analysis, FA)

  • 여러 변수들 간의 상관관계를 분석하여 **잠재 요인(Factors)**을 추출하는 방법
  • PCA는 데이터의 분산을 최대화하는 방향으로 변환하지만, FA는 데이터 내 공통된 요인을 찾아내는 데 초점
  • 목적: 변수 간의 구조적 관계를 분석하여 주요 요인을 도출

FA 과정

  1. 상관행렬 분석
  2. 요인 추출 (주축 요인 분석법 등 사용)
  3. 요인 회전 (Varimax, Quartimax 등)
  4. 요인 점수 계산 및 해석

 

3) 정준상관분석 (Canonical Correlation Analysis, CCA)

  • 두 개의 변수 집합 간의 관계를 분석하는 방법
  • 각각의 변수 집합에서 정준 변수(Canonical Variables)를 추출하여 상관관계를 분석
    • 정준 변수: 원래 변수들의 선형 조합으로 생성된 새로운 변수
    • 정준상관계수: 정준 변수들 간의 상관관계를 나타내는 값

 

정준분석과 회귀분석의 차이점

 

회귀분석의 경우 하나의 반응변수를 여러 개의 설명 변수로 설명하고자 할 때,

가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에서는 이와같은 인과성이 없다.

 

 


2.5 개체 유도 (Cluster Analysis & Classification Analysis)

개체 유도는 데이터를 그룹화하여 패턴을 찾거나, 개체를 특정 범주로 분류하는 방법입니다.

1) 군집분석 (Cluster Analysis)

  • 데이터 객체들을 유사한 특성을 가진 그룹(클러스터)으로 묶는 분석 기법

군집분석 방법

  • 계층적 방법 (Hierarchical Clustering)
    • 데이터 샘플들을 점진적으로 병합(병합형)하거나 분할(분할형)하여 계층적 트리를 형성
    • 예: Agglomerative Hierarchical Clustering
  • 비계층적 방법 또는 최적분화 방법 (Non-Hierarchical Clustering / Partitioning Methods)
    • 데이터 집합을 특정 개수의 클러스터로 나누는 방법
    • 예: K-means Clustering
  • 조밀도 기반 방법 (Density-Based Clustering)
    • 데이터의 밀도를 기반으로 클러스터를 형성하며, 이상치(Outlier) 제거에도 효과적
    • 예: DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
  • 그래프를 이용한 방법 (Graph-Based Clustering)
    • 네트워크 데이터에서 노드 간의 관계를 분석하여 군집을 형성
    • 예: Spectral Clustering

2) 다차원 척도법 (Multidimensional Scaling, MDS)

  • 다차원 데이터를 2차원 또는 3차원으로 변환하여 시각적으로 표현하는 방법
  • 개체 간의 거리(유사성)를 보존하면서 낮은 차원으로 차원 축소

MDS 과정

  1. 개체 간 거리 행렬 생성
  2. 거리 행렬을 기저 공간으로 변환
  3. 차원 축소된 좌표 생성

3) 판별 분석 (Discriminant Analysis)

  • 주어진 데이터가 특정 그룹에 속하는지 예측하는 분석 기법
  • 예: LDA (Linear Discriminant Analysis)
  • 목적: 독립변수를 이용하여 데이터가 특정 그룹에 속할 확률을 예측

 

 


 

💡 도움이 되셨다면 댓글과 공감 부탁드립니다! 😊
📌 더 많은 알고리즘 풀이와 프로그래밍 자료는 블로그에서 확인하세요!
✉️ 문의나 피드백은 댓글이나 이메일로 남겨주세요.

 

 

728x90
반응형