728x90
반응형
PART01 빅데이터 분석 기획
CHAPTER 02 데이터 수집 및 저장 계획
[P01CH03S01] 데이터 수집 및 전환
1. 데이터 수집
데이터 수집은 다양한 장소에 존재하는 데이터를 한 곳으로 모으는 과정입니다. 이를 위해서는 다음과 같은 절차를 거칩니다:
- 수집 데이터 유형 파악: 수집하려는 데이터의 유형을 이해합니다.
- 수집 기술 결정: 데이터 유형에 맞는 수집 기술을 선택합니다.
- 아키텍처 수립: 데이터 수집을 위한 시스템 구조를 설계합니다.
- 하드웨어 구축: 필요한 하드웨어를 설치합니다.
- 실행환경 구축: 데이터 수집을 위한 소프트웨어 환경을 구성합니다. citeturn0search7
1.1 비즈니스 도메인과 원천 데이터 정보 수집
- 비즈니스 도메인 정보: 비즈니스 모델, 용어집, 프로세스 등을 수집하여 도메인에 대한 깊은 이해를 확보합니다.
- 원천 데이터 정보: 데이터의 수집 가능성, 보안, 정확성, 수집 난이도, 비용 등을 평가합니다. citeturn0search7
1.2 내·외부 데이터 수집
- 내부 데이터: 서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터 등 조직 내부에서 생성되는 데이터입니다.
- 외부 데이터: 소셜 데이터, 특정 기관 데이터, M2M 데이터, Linked Open Data(LOD) 등 외부에서 얻을 수 있는 데이터입니다. citeturn0search7
1.3 데이터 수집 기술
데이터 유형에 따라 적합한 수집 기술이 다릅니다:
- 정형 데이터: ETL(Extract, Transform, Load), FTP, API, DBtoDB, Sqoop 등을 사용합니다.
- 비정형 데이터: 크롤링, RSS, Open API, Scrapy, Apache Kafka 등을 활용합니다.
- 반정형 데이터: Sensing, Streaming, Flume, Scribe, Chukwa 등을 이용합니다. citeturn0search0
2. 데이터 유형 및 속성 파악
데이터를 효과적으로 수집하고 활용하기 위해서는 데이터의 유형과 속성을 정확히 파악해야 합니다.
2.1 데이터 유형
- 구조적 관점
- 정형 데이터: 고정된 스키마 구조를 가지며, 관계형 데이터베이스나 스프레드시트 등이 이에 해당합니다.
- 반정형 데이터: 스키마는 있으나 값과 형식이 일관되지 않은 데이터로, XML, JSON, 웹 로그 등이 포함됩니다.
- 비정형 데이터: 스키마 구조가 없으며, SNS 데이터, 이미지, 오디오, 비디오 등이 이에 속합니다. citeturn0search0
- 존재 형태
- 실시간 데이터: 데이터 생성 즉시 분석에 활용되는 센서 데이터, 시스템 로그 등이 있습니다.
- 비실시간 데이터: 일정 기간 누적하여 분석하는 웹 로그, 구매 정보 등이 해당됩니다. citeturn0search0
- 저장 형태
- 파일: 텍스트, 로그 파일 등.
- 데이터베이스: RDB, NoSQL 등.
- 콘텐츠: 텍스트, 이미지, 오디오 등.
- 스트림: 실시간으로 전송되는 센서 데이터, HTTP 트랜잭션 등이 있습니다. citeturn0search0
2.2 데이터 속성 파악
- 범주형 데이터(정성적 데이터)
- 명목형: 의미만 구분되는 데이터로, 예를 들어 성별, 지역 등이 있습니다.
- 순서형: 순서나 등급을 나타내는 데이터로, 예를 들어 만족도 수준 등이 있습니다. citeturn0search0
- 수치형 데이터(정량적 데이터)
- 이산형: 셀 수 있는 값으로, 예를 들어 제품 개수 등이 있습니다.
- 연속형: 연속적인 값을 가지는 데이터로, 예를 들어 키, 몸무게 등이 있습니다. citeturn0search0
3. 데이터 변환
수집한 데이터를 분석에 적합한 형태로 변환하는 과정입니다.
3.1 데이터 전처리
- 필터링: 오류, 공백, 중복 데이터를 제거하여 데이터 품질을 향상시킵니다.
- 변환: 데이터 유형을 변환하거나 평활화, 집계, 일반화, 정규화, 속성 생성 등의 기법을 사용합니다.
- 정제: 결측치를 채우고 이상치를 제거하여 데이터를 정제합니다. citeturn0search0
3.2 데이터 후처리
- 통합: 추가 속성을 통합하여 데이터를 풍부하게 만듭니다.
- 축소: 불필요한 항목을 제거하여 데이터의 효율성을 높입니다.
- 변환: 데이터 유형을 변환하여 분석에 적합한 형태로 만듭니다. citeturn0search0
4. 데이터 비식별화
개인정보를 보호하기 위해 데이터를 비식별화하는 과정입니다.
- 사용자 인증: 접근 자격을 확인하는 기술입니다.
- 접근제어: 객체에 대한 권한을 확인하고 통제하는 기술입니다.
- 암호화: 암호화 알고리즘을 통해 데이터를 해독 불가능한 상태로 만드는 기술입니다.
- 개인정보 비식별화: 개인을 특정할 수 없도록 처리하는 기술입니다.
- 개인정보 암호화: 데이터베이스에서 개인정보가 포함된 특정 필드를 암호화하여 저장하는 기술입니다. citeturn0search0
5. 데이터 품질 검증
정형 데이터
- 완전성: 필수항목에 누락이 없어야한다.
- 유효성: 데이터 항목은 유일해야하며 중복되어서는 안된다.
- 일관성: 데이터가 지켜야할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야한다.
- 유효성: 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.
- 정확성: 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야한다.
비정형 데이터
- 기능성: 해당 컨텐츠가 특정 조건에서 사용될떄, 명시된 요구와 내재된 요구를 만족하는 기능을 제공하는정도
- 신뢰성: 해당 컨텐츠가 규정된 조건에서 사용될 때 규정된 신뢰 수준을 유지하거나 사용자로 하여금 오류를 방지할 수 있도록 하는 정도
- 사용성: 해당 컨텐츠가 규정된 조건에서 사용될 떄, 사용자에 의해 이해되고, 선호될 수 있게 하는 정도
- 효율성: 해당 컨첸츠가 규정된 조건에서 사용되는 지원의 양에 따라 요구되는 성능을 제공하는 정도
- 이식성: 해당 컨텐츠가 다양한 환경과 상황에서 실행할 가능성
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[P01CH02S02] 분석 작업 계획 (0) | 2025.03.12 |
---|---|
[P01CH03S02] 데이터 적재 및 저장 (0) | 2025.03.12 |
[P01CH02S01] 분석 방안 수립 (1) | 2025.03.11 |
[P01CH01S02]: 빅데이터 기술 및 제도 (0) | 2025.03.11 |
[P01CH01S01] 데이터와 정보 (0) | 2025.03.10 |