[P03CH02S01] ✨분석 기법 (feat. 인공지능, 빅데이터)

728x90

PART03: 빅데이터 모델링

CHAPTER02: 분석기법 적용

[P03CH02S01] 분석 기법

01. 분석기법 개요

1.1 학습 유형에 따른 데이터 분석 모델

데이터 분석 모델은 학습 방식에 따라 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 준지도학습(Semi-supervised Learning), 강화학습(Reinforcement Learning)으로 구분됩니다.

https://m.blog.naver.com/k0sm0s1/221863569856

1) 지도학습

입력 데이터에 대한 정답(레이블) 이 존재하는 경우 사용
훈련 데이터와 정답을 기반으로 모델을 학습하여 새로운 데이터에 대한 예측 수행
대표적인 지도학습 기법:
- 분류(Classification): 데이터가 미리 정의된 여러 개의 카테고리 중 하나로 분류됨 (예: 이메일 스팸 분류, 손글씨 숫자 인식)
- 회귀(Regression): 연속적인 값을 예측하는 분석 기법 (예: 주택 가격 예측, 주식 시장 예측)

2) 비지도학습

정답(레이블)이 없는 데이터를 대상으로 패턴과 구조를 발견하는 기법
데이터 군집화 및 패턴 인식을 통해 정보 추출 가능
대표적인 비지도학습 기법:
- 군집 분석(Clustering): 데이터 그룹을 자동으로 분류하는 방법 (예: 고객 세분화, 문서 클러스터링)
- 연관성 분석(Association Rule Mining): 데이터 간의 관계를 발견하는 방법 (예: 장바구니 분석)
- 차원 축소(Dimensionality Reduction): 고차원 데이터를 저차원으로 변환 (예: PCA, t-SNE)
- 인공신경망(Artificial Neural Network): 비지도 학습을 활용하여 데이터 특징을 추출하는 방법 (예: 오토인코더)

3) 준지도학습

소량의 레이블 데이터와 대량의 비레이블 데이터를 함께 사용하여 학습하는 방법
레이블 데이터 수집 비용이 높은 경우 사용
대표적인 준지도학습 기법:
- 셀프트레이닝(Self-training): 모델이 자신이 예측한 높은 신뢰도의 데이터로 추가 학습
- GAN(Generative Adversarial Network): 데이터 분포를 모방하여 학습 데이터 증강
- Co-Training: 두 개 이상의 모델이 서로의 예측값을 학습 데이터로 활용

4) 강화학습

보상(Reward)을 최대화하도록 행동을 학습하는 기법
에이전트(Agent)가 환경(Environment)과 상호작용하면서 최적의 행동을 학습
대표적인 강화학습 기법:
- Q-Learning: 가치 기반 강화학습 기법
- 정책 경사법(Policy Gradient, PG): 행동 정책을 직접 학습하는 방법

2. 회귀분석

2.1 개요

회귀분석은 특정 변수가 다른 변수에 미치는 영향을 수학적 모형으로 설명하고 예측하는 기법이다. 일반적으로 독립변수를 이용하여 종속변수를 예측하는 방법으로 알려져 있다. 회귀식은 다음과 같이 표현된다.

y = bx + c

회귀선(회귀계수): 독립변수가 주어질 때 종속변수의 기댓값을 나타내는 선으로, 일반적으로 최소제곱법을 이용해 구한다.
최소제곱법: 잔차(관측값과 예측값의 차이) 제곱의 합이 최소가 되도록 회귀선을 찾는 방법

2.2 회귀분석 모형 진단

(1) 적합도 검정

추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지 검증하는 과정
결정계수(R², Coefficient of Determination): 회귀선의 설명력으로, 1에 가까울수록 높은 설명력을 가진다.
결정계수 계산식: R² = SSR(회귀제곱합) / SST(총 제곱합)

(2) 변수 영향력 분석

독립변수가 종속변수에 미치는 영향을 평가
p-값이 0.05보다 작을 경우, 해당 독립변수가 종속변수에 유의미한 영향을 미친다고 판단
회귀 계수 추정치의 표준오차 및 신뢰구간 검증 수행

(3) 잔차 분석

회귀분석 예측 모형의 오차 특성을 평가하는 과정
잔차의 정규성, 독립성, 등분산성 여부를 검토

2.3 선형 회귀분석

https://curriculum.cosadama.com/machine-learning/3-2/

(1) 단순 선형회귀분석

한 개의 종속변수(y)와 한 개의 독립변수(x) 사이의 관계를 분석
회귀식: y = ax + b (a: 회귀계수, b: 절편)

(2) 다중 선형회귀분석

독립변수가 두 개 이상이고 종속변수가 하나인 경우의 회귀분석
회귀식: y = ax₁ + bx₂ + ... + c (a, b, ...: 회귀계수, c: 절편)

(3) 선형회귀분석의 기본 가정

선형성(Linearity): 독립변수와 종속변수 사이의 관계가 선형이어야 함
잔차 정규성(Normality of Residuals): 잔차가 정규분포를 따라야 함
잔차 독립성(Independence of Residuals): 잔차들이 서로 독립적이어야 함
잔차 등분산성(Homoscedasticity): 모든 독립변수 값에서 잔차의 분산이 일정해야 함
다중공선성 없음(No Multicollinearity): 독립변수 간 높은 상관관계가 없어야 함

2.4 로지스틱 회귀분석

로지스틱 회귀는 이진 분류 / 선형 회귀는 예측

(1) 단순 로지스틱 회귀분석

종속변수가 이항형 문제(범주 개수 2개) 일 때 사용
예: 질병 유무 예측(Yes/No), 고객 이탈 예측(Stay/Leave)

(2) 다중 로지스틱 회귀분석

종속변수가 세 개 이상의 범주를 가질 경우 사용
로지스틱 회귀식은 비선형식이며, 로짓 변환(Logit Transformation) 을 통해 선형식으로 변환 가능

(3) 다중 로지스틱 회귀분석의 유형

다항 로지스틱 회귀(Multinomial Logistic Regression): 범주형 변수의 개수가 3개 이상인 경우
분화 로지스틱 회귀(Polytomous Logistic Regression): 범주형 변수의 개수가 여러 개이지만 순서가 없음
서수 로지스틱 회귀(Ordinal Logistic Regression): 종속변수가 순서를 가지는 범주형 변수일 때 사용

2.5 회귀분석의 장단점

(1) 장점

계수의 해석이 용이하고 결과가 직관적임
통계적 유의성 검증이 가능함
여러 독립변수와 종속변수 간의 관계를 설명할 수 있음

(2) 단점

데이터가 선형적 관계를 가져야 적용 가능함
다중공선성 문제 발생 시 해석이 어려워짐
이상치(Outlier)에 민감하여 분석 결과에 큰 영향을 미칠 수 있음

3. 의사결정 나무

3.1 개요

의사결정 나무는 의사결정 규칙을 나무 형태로 나타내어 전체 데이터를 몇 개의 소집단으로 분류하거나 예측을 수행하는 기법이다.

3.2 의사결정 나무의 구성

(1) 뿌리마디(뿌리노드): 나무가 시작되는 마디, 부모가 없는 마디

(2) 중간마디: 나무줄기 중간에 있는 마디

(3) 끝마디(리프노드): 각 나무줄기 끝에 있는 마디, 자식이 없는 마디

(4) 자식마디: 하나의 마디로부터 분리된 2개 이상의 마디

(5) 부모 마디: 자식 마디의 상위 마디

(6) 가지: 하나의 마디로부터 끝 마디까지 연결된 마디들

(7) 깊이: 가장 긴 가지의 크기(마디의 개수)

3.3 의사결정나무의 종류

(1) 분류나무

이산형 목표변수
목표변수 범주에 속하는 빈도 기반으로 입력 데이터를 분류
상위 노드에서 가지 분할을 진행할 때 카이제곱 통계량의 p-값, 지니지수, 엔트로피 지수 등이 분리 기준으로 활용됨
불순도가 감소되도록 설정해야 하며, 불순도의 차이를 정보 획득이라고 함

(2) 회귀나무

연속형 목표변수
목표변수 평균/표준편차 기반으로 예측된 결과로 특정 의미를 지니는 실수값을 출력
F-통계량의 p-값, 분산 감소량 등이 분리 기준으로 활용됨

3.4 의사결정나무의 분석 과정

(1) 변수 선택

분석 목적에 맞는 변수를 선정

(2) 의사결정나무 형성

적절한 분리 기준과 정지 규칙(더 이상 분리가 일어나지 않는 조건), 평가 기준 등을 설정하여 나무를 만듦

(3) 가지치기

부적절한 추론 규칙을 가지거나 불필요한 분류를 제거하여 과적합 방지
사전 가지치기: 트리 성장을 미리 제한
사후 가지치기: 과적합을 줄이기 위해 트리 생성 후 가지를 제거

(4) 모형 평가 및 예측

정보 획득: 정보이론에서 순도가 증가하고 불확실성이 감소하는 것을 의미하며, 현재 노드와 자식 노드 간 불순도 차이를 나타냄
재귀적 분기 학습: 분기 전보다 분기 후 정보획득량이 높아지도록 영역을 구분하면서 반복적으로 학습 수행

3.5 의사결정나무의 대표적 알고리즘

(1) CART(Classification and Regression Trees)

가장 일반적인 의사결정나무 알고리즘
불순도 측정 방법:
- 범주형 목표변수: 지니지수
- 연속형 목표변수: 분산 감소량
이진 분리(각 노드에서 두 개의 가지로만 분리 가능)

(2) C4.5 / C5.0

범주형 또는 이산형 목표변수에 활용
불순도 측정 방법: 엔트로피 지수
각 마디에서 다지 분리 가능 (이진 분리 X)

(3) CHAID(Chi-Squared Automatic Interaction Detection)

범주형/이산형 목표변수와 연속형 목표변수 모두 활용 가능
카이제곱 통계량을 이용하여 다지 분리 수행

(4) 랜덤포레스트

여러 개의 의사결정나무를 조합하여 앙상블 학습 수행
배깅(Bagging) 기반 학습을 통해 과적합 방지
주요 특징(앙상블 기법):
- 부트스트래핑: 복원 추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본을 생성
- 배깅: 여러 부트스트랩 샘플을 학습 후 결과를 앙상블
- 부스팅: 약한 분류기를 강한 분류기로 변환하는 기법
- 스태킹: 모델이 예측한 데이터를 다시 meta data set으로 사용해서 학습

자세한 내용은 하단 블로그를 참조하면 좋을 것 같네요.

깔끔하게 잘 정리되어 있습니다.

https://data-analysis-science.tistory.com/61

1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)

안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한

data-analysis-science.tistory.com

3.6 의사결정나무의 장단점

(1) 장점

연속형 및 범주형 변수 모두 처리 가능
직관적이고 이해하기 쉬운 규칙 제공
데이터에서 규칙을 자동 도출할 수 있어 다양한 분야에서 활용 가능

(2) 단점

트리 구조가 너무 복잡해질 경우 예측 및 해석력 저하
데이터 변형(스케일링 등)에 민감
과적합 발생 가능성이 있음 (가지치기를 통해 해결 가능)

4. 인공신경망(ANN: Artificial Neural Network)

4.1 개요

인공신경망은 인간의 두뇌 신경세포인 뉴런을 본뜬 기계학습 기법이다.
하나의 뉴런이 다른 뉴런들과 연결되어 신호를 전달하고 처리하는 구조를 가진다.
입력 데이터가 들어가면서 신호의 강도에 따라 가중치 처리되고, 활성화 함수를 통해 출력이 계산됨.
학습을 통해 원하는 결과가 나오도록 가중치가 조정됨.
신경망 모델은 높은 복잡성을 가지며, 입력 자료의 선택에 민감함.

4.1.1 변수 유형

범주형 변수: 일정 빈도 이상의 값으로 비슷하고 일정한 구간을 가짐.
연속형 변수: 입력변수 값들의 차이가 크지 않아 표준화가 용이함.

4.2 인공신경망의 발전

4.2.1 기존 신경망 다층 퍼셉트론의 문제

사라지는 경사도(Vanishing Gradient): 신경망 층수를 늘릴 때 데이터가 소실되어 학습이 잘 되지 않는 현상.
과대적합(Overfitting): 훈련 데이터에 과도하게 맞춰져 일반화 성능이 저하되는 문제.

4.2.2 딥러닝의 등장

사전 학습 기법과 드롭아웃(Dropout) 기술을 사용하여 경사도 소실 문제 해결 및 과대적합 방지.
딥러닝은 기존 인공신경망을 뛰어넘는 성능을 보여줌.
활용 분야:
- 얼굴 및 행동 인식
- 이미지 패턴 인식
- 음성 인식
- 감정 분석
- 시계열 데이터 예측
- 이상 탐지
딥러닝 기본 구조:
- 은닉층 2개 이상의 DNN(Deep Neural Network)
- CNN, RNN, LSTM, GRU, Auto-Encoder, GAN 등의 다양한 신경망 모델 포함

4.3 인공신경망의 원리

4.3.1 주요 요소

노드(Node): 가중치와 입력값을 받아 활성화 함수를 통해 다음 노드로 전달.
가중치(Weight): 신경망에서 노드 간 연결의 강도를 결정하는 요소.
활성화 함수(Activation Function): 입력 신호의 총합을 변환하여 출력 신호를 결정하는 함수.
- 대표적으로 시그모이드(Sigmoid), ReLU(Rectified Linear Unit) 등이 있음.

입력층(Input Layer): 학습 데이터 입력 담당.
은닉층(Hidden Layer): 입력층과 출력층 사이에서 데이터 전파 학습을 수행.
출력층(Output Layer): 최종 결과값을 출력.

4.3.2 뉴런 간 연결 방식

층간 연결: 서로 다른 층을 연결.
층 내 연결: 동일 층 내 뉴런 간 연결.
순환 연결: 뉴런 출력이 자기 자신에게 입력되는 연결 방식.

4.4 학습 방법

4.4.1 손실 함수(Loss Function)

결국 ANN 학습, 인공지능의 핵심은 손실 함수를 최소화해야하는 것입니다.

신경망 출력값과 실제 값의 오차를 측정하는 함수.
대표적인 손실 함수:
- 평균제곱오차(Mean Squared Error, MSE): 출력값과 목표값 차이의 제곱 평균.
- 교차 엔트로피 오차(Cross Entropy Error): 원-핫 인코딩 벡터를 활용하여 로그 변환 후 곱셈 적용.

https://esangbaek.github.io/aiot/AIoT-project4/

4.4.2 학습 알고리즘

미니배치(Mini-Batch) 학습: 훈련 데이터 일부를 무작위로 선택하여 학습 진행.

기울기 계산: 손실 함수를 최소화하기 위해 가중치 매개변수의 기울기(Gradient)를 미분하여 계산.
- 경사 하강법(Gradient Descent) : Loss를 어떻게 떨어뜨릴 것인지에 대한 기법
- 확률적 경사 하강법(SGD, Stochastic Gradient Descent)

매개변수 업데이트: 기울기 방향으로 가중치를 갱신하며 반복 수행.

4.4.3 오차 역전파(Backpropagation)

출력층에서 입력층으로 오차를 전파하여 가중치를 조정하는 방식.
연쇄 법칙(Chain Rule)을 이용하여 역방향으로 기울기 계산.
활성화 함수 역전파 예시:
- ReLU 계층
- 시그모이드 계층
- Softmax-with-Loss 계층

https://velog.velcdn.com/images%2Fcha-suyeon%2Fpost%2Fd1bdf69b-1956-4656-8b55-0f36146d08bb%2Fimage.png

4.5 과대적합 방지 기법

4.5.1 가중치 감소(Weight Decay)

가중치가 클수록 페널티를 부여하여 과대적합을 방지하는 방법.

4.5.2 정규화 방법

Lasso (L1 Regularization): 비용 함수에 가중치의 절댓값 합을 추가하여 중요한 W만 남김.
Ridge (L2 Regularization): 비용 함수에 가중치 제곱 합을 추가하여 작은 가중치가 유지되도록 함.
L1 규제보다 L2 규제가 많이 활용됨.

4.5.3 드롭아웃(Dropout)

학습 중 일부 뉴런을 랜덤하게 비활성화하여 과대적합을 방지하는 방법.
학습할 때 일부 뉴런만 훈련 후, 테스트 시 전체 뉴런을 사용하여 예측 성능 향상.

4.5.4 하이퍼파라미터 최적화

모델의 성능을 극대화하기 위해 하이퍼파라미터(학습률, 뉴런 개수 등)를 최적화하는 과정.

하이퍼 파라미터 튜닝 사용자의 입력값이고 정해진 최적의 값이 없다. 모델이나 데이터에 따라 달라지곤 하는데 이를 여러 번 시도해보면서 데이터와 모델에 맞는 하이퍼 파라미터를 찾아 나가는 과정을 하이퍼 파라미터 튜닝이라고 한다.

4.5 딥러닝 모델 종류

딥러닝 모델은 다양한 데이터 유형과 문제 해결 방식에 따라 여러 가지로 구분된다. 주요 딥러닝 모델에는 CNN(합성곱 신경망), RNN(순환 신경망), LSTM(장단기 메모리 신경망), 오토인코더(Autoencoder), 그리고 GAN(생성적 적대 신경망)이 있다.

상세한 내용은 하단 자료 참고하면 좋을 것 같습니다.

빅데이터 분석기사는 지금 이 포스트 정도만 참고해도 됩니다.

https://wikidocs.net/book/2155

딥 러닝을 이용한 자연어 처리 입문

$25년 1월 기준: 누적 조회수: 1,700만 베스트셀러$ 많은 분들의 피드백으로 수 년간 보완된 현업 연구원들이 작성한 $딥 러닝 자연어 처리 교재 입문서$ 입니다. …

wikidocs.net

4.5.1 CNN (Convolutional Neural Network, 합성곱 신경망)

CNN은 주로 이미지 처리에 최적화된 신경망 모델로, 사람의 시신경 구조를 모방하여 설계되었다.

https://sonsnotation.blogspot.com/2020/11/7-convolutional-neural-networkcnn.html

특징
- 이미지 및 영상 데이터의 특징을 추출하여 분류, 인식하는 데 효과적이다.
- 합성곱 계층(Convolutional Layer)과 풀링 계층(Pooling Layer)으로 구성됨.
- 공간적 특성 유지: 데이터를 완전 연결 계층(Fully Connected Layer)에서 처리하는 대신, 국소적인 특징을 추출하여 학습하는 방식.
구성 요소
- 합성곱 계층(Convolution Layer): 필터(커널)를 사용하여 입력 데이터에서 특징을 추출.
- 풀링 계층(Pooling Layer): 데이터 차원을 축소하여 연산량을 줄이고, 모델의 일반화 성능을 향상.
- 완전 연결 계층(Fully Connected Layer): 마지막 단계에서 데이터를 분류.
활용 분야
- 이미지 및 영상 처리 (얼굴 인식, 객체 탐지)
- 의료 영상 분석 (MRI, X-ray 판독)
- 자율주행 시스템 (도로 및 차량 인식)
대표적인 CNN 모델
- LeNet: 초기 CNN 모델로 손글씨 인식에 활용됨.
- AlexNet: CNN이 딥러닝에서 널리 사용되게 만든 모델.
- VGGNet: 깊은 신경망을 적용하여 성능을 향상시킨 모델.
- ResNet: 깊은 네트워크 구조에서도 학습이 잘 이루어지도록 개선한 모델.

4.5.2 RNN (Recurrent Neural Network, 순환 신경망)

RNN은 시퀀스 데이터(순차적인 데이터)를 처리하는 데 특화된 신경망 모델이다.

특징
- 과거 정보를 기억하여 순서가 중요한 데이터 처리 가능.
- 뉴런 간의 순환 구조를 통해 이전 상태의 정보를 유지함.
- 시계열 데이터나 자연어 처리(NLP)에 많이 사용됨.
구성 요소
- 입력층(Input Layer): 시퀀스 데이터 입력.
- 순환 계층(Recurrent Layer): 과거 정보를 기억하는 은닉층.
- 출력층(Output Layer): 최종 예측값 출력.
활용 분야
- 음성 인식
- 기계 번역 (자연어 처리)
- 주가 예측 (시계열 데이터 분석)
한계점
- 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient) 문제가 발생할 수 있음.
- 이러한 문제를 해결하기 위해 LSTM, GRU 같은 개선된 모델이 등장.

4.5.3 LSTM (Long Short-Term Memory, 장단기 메모리 신경망)

LSTM은 RNN의 기울기 소실 문제를 해결하기 위해 개발된 모델로, 장기 의존성을 학습할 수 있다. 게이트를 두어서 기울기 소실문제에 대해 접근함.

특징
- 입력 게이트(Input Gate), 출력 게이트(Output Gate), 망각 게이트(Forget Gate), [CELL]를 사용하여 기억할 정보와 버릴 정보를 선택. - GATE 4개
- 장기간의 정보를 유지하면서도 필요 없는 정보는 제거하는 방식.
- 자연어 처리, 음성 인식 등의 분야에서 RNN보다 더 뛰어난 성능을 보임.
구성 요소
- 셀 상태(Cell State): 장기 기억 저장.
- 게이트 구조(Gate Mechanism): 입력, 출력, 망각 게이트로 구성.
활용 분야
- 챗봇 및 음성 비서 (예: Siri, Google Assistant)
- 기계 번역
- 금융 및 주가 예측

4.5.4 오토인코더 (Autoencoder)

오토인코더는 비지도 학습 기반의 신경망 모델로, 데이터의 특징을 압축하고 다시 복원하는 방식으로 동작한다.

https://yeong-jin-data-blog.tistory.com/entry/Autoencoder

특징
- 데이터 차원 축소(Feature Extraction) 및 노이즈 제거(Denoising)에 활용됨.
- 입력과 출력이 동일한 구조로, 압축된 정보(은닉층)를 통해 중요한 특징만 학습.
- GAN과 함께 데이터 생성에도 활용될 수 있음.
구성 요소
- 인코더(Encoder): 입력 데이터를 압축하여 잠재 공간(latent space)으로 변환.
- 디코더(Decoder): 압축된 데이터를 다시 원본 형태로 복원.
활용 분야
- 이상 탐지 (Anomaly Detection)
- 이미지 및 음성 데이터 복원
- 데이터 차원 축소 및 시각화

4.5.5 GAN (Generative Adversarial Network, 생성적 적대 신경망)

GAN은 생성자(Generator)와 판별자(Discriminator)가 서로 경쟁하면서 학습하는 모델이다.

위조지폐와 경찰을 예로 설명한 GAN 모델 (Goodfellow, lan el al., 2014)

특징
- 생성자는 데이터를 만들어내고, 판별자는 그것이 진짜인지 가짜인지 판별.
- 두 신경망이 경쟁하면서 점점 더 정교한 데이터를 생성.
- 데이터 증강, 이미지 생성 등 다양한 분야에서 활용됨.
구성 요소
- 생성자(Generator): 랜덤 노이즈를 입력받아 실제 데이터와 유사한 데이터를 생성.
- 판별자(Discriminator): 생성된 데이터가 실제 데이터인지 판별.
활용 분야
- 가짜 얼굴 생성 (딥페이크)
- 스타일 변환 (예: 사진을 그림처럼 변환)
- 의료 데이터 생성 및 증강
대표적인 GAN 모델
- DCGAN: CNN을 활용하여 이미지 생성을 개선한 모델.
- CycleGAN: 서로 다른 이미지 스타일을 변환하는 데 사용됨 (예: 낮을 밤으로 변환).
- SRGAN: 저해상도 이미지를 고해상도로 변환하는 데 사용됨.

4.5.6 인공신경망의 장단점

장점

비선형적 예측 가능: 복잡한 데이터 관계를 모델링할 수 있음.
다양한 데이터 유형 지원: 이미지, 음성, 텍스트 등 다양한 데이터에서 활용 가능.
새로운 학습 환경 지원: 적응적인 학습이 가능하며, 일부 데이터가 손실되더라도 학습이 지속됨.

단점

학습 시간이 오래 걸림: 데이터가 커질수록 연산 비용이 기하급수적으로 증가.
설명력이 부족함: 모델이 어떤 방식으로 결론을 도출했는지 해석하기 어려움 (XAI 기법 활용 필요).
과적합 문제: 학습 데이터에 너무 의존하면 일반화 성능이 떨어질 수 있음.

5. 서포트 벡터 머신(SVM)

개념: 초평면을 찾아 분류 및 회귀를 수행하는 기법

주요 요소:
- 벡터: 클래스
- 결정영역: 클래스들을 분리하는 선
- 초평면: 데이터 간 거리를 최대화하는 분리선
- 서포트벡터: 클래스 경계에 위치한 데이터 포인트
- 마진: 서포트 벡터를 지나는 초평면 사이 거리
특징:
- 오류율 최소화 대신 마진 최대화로 일반화 성능 향상
- 고차원 특징 공간으로 사상하여 비선형 분류 가능(커널 트릭)
장단점:
- 장점: 사용이 쉽고, 분류·회귀 모두 가능, 작은 데이터로도 학습 가능
- 단점: 이진 분류만 가능, 데이터가 많을 경우 학습시간 증가, 각 분류마다 개별 모델 구축 필요

6. 연관성 분석

개념: 데이터 내 항목 간 관련성을 분석하는 비지도 학습 기법
→ 장바구니 분석, 콘텐츠 기반 추천 등에 활용

연관규칙 생성 과정:
1. 데이터 간 규칙 생성
2. 규칙 평가 기준 설정
  - 지지도 (Support): 전체 데이터에서 특정 항목이 포함될 확률
  - 신뢰도 (Confidence): 특정 항목이 포함되었을 때 다른 항목도 포함될 확률
  - 향상도 (Lift):
    - 1보다 크면 양의 상관관계
    - 1이면 독립적
    - 1보다 작으면 음의 상관관계
3. 규칙의 효용성 평가
  - 지지도, 신뢰도가 높은 규칙 탐색
  - 아프리오리 알고리즘 활용: 빈발 항목 집합만 고려하여 연관 규칙 계산
  - 지지도·신뢰도 기준이 높을수록 규칙 수 감소
장단점:
- 장점: 분석 결과가 직관적이며 실무 적용이 용이
- 단점: 품목 수가 많을수록 연관 규칙이 많아져 의미 있는 규칙 선별 필요, 계산량 증가

7. 군집분석 (Clustering Analysis)

개념: 비지도 학습의 한 유형으로, 유사한 개체들을 그룹화하여 군집을 형성하는 기법
기본 가정:
- 같은 군집 내 개체들은 유사한 특성을 가짐
- 개체 간 거리를 기준으로 군집을 분류
- 군집의 특성은 해당 군집의 평균값으로 나타냄

🔹 군집 분석의 거리 측정 방법

https://ablearn.kr/newsletter/?bmode=view&idx=13834809

유클리드 거리 (Euclidean Distance)
- 두 점 사이의 가장 짧은 거리 (L2 거리)
- 피타고라스 정리를 이용하여 측정
맨하탄 거리 (Manhattan Distance)
- 블록 구조에서 직선 이동 없이 도달하는 최단 거리 (L1 거리)
- 각 변수 값 차이의 절댓값 합
민코우스키 거리 (Minkowski Distance)
- m=1이면 맨하탄 거리, m=2이면 유클리드 거리
- m에 따라 거리 측정 방식이 변함
마할라노비스 거리 (Mahalanobis Distance)
- 데이터의 분포와 방향성을 고려한 거리
- 공분산 행렬을 적용하여 정규화
자카드 거리 (Jaccard Distance)
- 범주형 데이터의 유사도를 측정하는 지표
- 두 집합 간 차이를 비교하는 방식

🔹 군집 분석의 종류

계층적 군집 분석 (Hierarchical Clustering)
- 군집을 계층적 구조로 형성
- 계층적 병합 군집화 (Agglomerative Clustering)
  → 개별 개체를 시작으로 가장 가까운 군집끼리 점진적으로 병합
비계층적 군집 분석 (Non-Hierarchical Clustering)
- 사전에 군집 개수를 지정하여 군집화 진행
- K-평균 (K-means) 군집 분석
  → 데이터를 k개의 클러스터로 분할
- 밀도 기반 클러스터링 (DBSCAN)
  → 밀도가 높은 영역을 중심으로 군집 형성
- 확률 분포 기반 클러스터링 (Gaussian Mixture Model, GMM)
  → 데이터가 여러 개의 정규 분포를 따른다고 가정하여 군집화

🔹 군집 분석의 장단점

장점:

다양한 데이터 형태에 적용 가능
변수 정의 없이 탐색적으로 활용 가능

단점:

초기 군집 개수 및 거리 기준 설정에 따라 결과가 달라질 수 있음
목표 없이 데이터 자체를 군집화하기 때문에 해석이 어려울 수 있음

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

Part 4: 빅데이터 결과 해석 (0)	2025.03.18
[P03CH02S02] 고급 분석 기법 (0)	2025.03.18
[P03CH01S01-02] 데이터 탐색 기초 (0)	2025.03.17
Part 3: 빅데이터 모델링 (0)	2025.03.16
[P02CH02S02] 추론통계 (0)	2025.03.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[P03CH02S01] ✨분석 기법 (feat. 인공지능, 빅데이터)

PART03: 빅데이터 모델링

CHAPTER02: 분석기법 적용

[P03CH02S01] 분석 기법

01. 분석기법 개요

1.1 학습 유형에 따른 데이터 분석 모델

1) 지도학습

2) 비지도학습

3) 준지도학습

4) 강화학습

2. 회귀분석

2.1 개요

2.2 회귀분석 모형 진단

(1) 적합도 검정

(2) 변수 영향력 분석

(3) 잔차 분석

2.3 선형 회귀분석

(1) 단순 선형회귀분석

(2) 다중 선형회귀분석

(3) 선형회귀분석의 기본 가정

2.4 로지스틱 회귀분석

(1) 단순 로지스틱 회귀분석

(2) 다중 로지스틱 회귀분석

(3) 다중 로지스틱 회귀분석의 유형

2.5 회귀분석의 장단점

3. 의사결정 나무

3.1 개요

3.2 의사결정 나무의 구성

3.3 의사결정나무의 종류

(1) 분류나무

(2) 회귀나무

3.4 의사결정나무의 분석 과정

(1) 변수 선택

(2) 의사결정나무 형성

(3) 가지치기

(4) 모형 평가 및 예측

3.5 의사결정나무의 대표적 알고리즘

(1) CART(Classification and Regression Trees)

(2) C4.5 / C5.0

(3) CHAID(Chi-Squared Automatic Interaction Detection)

(4) 랜덤포레스트

3.6 의사결정나무의 장단점

(1) 장점

(2) 단점

4. 인공신경망(ANN: Artificial Neural Network)

4.1 개요

4.1.1 변수 유형

4.2 인공신경망의 발전

4.2.1 기존 신경망 다층 퍼셉트론의 문제

4.2.2 딥러닝의 등장

4.3 인공신경망의 원리

4.3.1 주요 요소

4.3.2 뉴런 간 연결 방식

4.4 학습 방법

4.4.1 손실 함수(Loss Function)

4.4.2 학습 알고리즘

4.4.3 오차 역전파(Backpropagation)

4.5 과대적합 방지 기법

4.5.1 가중치 감소(Weight Decay)

4.5.2 정규화 방법

4.5.3 드롭아웃(Dropout)

4.5.4 하이퍼파라미터 최적화

4.5 딥러닝 모델 종류

4.5.1 CNN (Convolutional Neural Network, 합성곱 신경망)

4.5.2 RNN (Recurrent Neural Network, 순환 신경망)

4.5.3 LSTM (Long Short-Term Memory, 장단기 메모리 신경망)

4.5.4 오토인코더 (Autoencoder)

4.5.5 GAN (Generative Adversarial Network, 생성적 적대 신경망)

4.5.6 인공신경망의 장단점

장점

단점

5. 서포트 벡터 머신(SVM)

6. 연관성 분석

7. 군집분석 (Clustering Analysis)

🔹 군집 분석의 거리 측정 방법

🔹 군집 분석의 종류

🔹 군집 분석의 장단점

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

관련글

티스토리툴바