본문 바로가기
자격증/빅데이터분석기사

[P01CH03S01] 데이터 수집 및 전환

by rnasterofmysea 2025. 3. 12.
728x90
반응형

 PART01 빅데이터 분석 기획

CHAPTER 02 데이터 수집 및 저장 계획

 

 

[P01CH03S01] 데이터 수집 및 전환


1. 데이터 수집

데이터 수집은 다양한 장소에 존재하는 데이터를 한 곳으로 모으는 과정입니다. 이를 위해서는 다음과 같은 절차를 거칩니다:

  1. 수집 데이터 유형 파악: 수집하려는 데이터의 유형을 이해합니다.
  2. 수집 기술 결정: 데이터 유형에 맞는 수집 기술을 선택합니다.
  3. 아키텍처 수립: 데이터 수집을 위한 시스템 구조를 설계합니다.
  4. 하드웨어 구축: 필요한 하드웨어를 설치합니다.
  5. 실행환경 구축: 데이터 수집을 위한 소프트웨어 환경을 구성합니다. citeturn0search7

1.1 비즈니스 도메인과 원천 데이터 정보 수집

  • 비즈니스 도메인 정보: 비즈니스 모델, 용어집, 프로세스 등을 수집하여 도메인에 대한 깊은 이해를 확보합니다.
  • 원천 데이터 정보: 데이터의 수집 가능성, 보안, 정확성, 수집 난이도, 비용 등을 평가합니다. citeturn0search7

1.2 내·외부 데이터 수집

  • 내부 데이터: 서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터 등 조직 내부에서 생성되는 데이터입니다.
  • 외부 데이터: 소셜 데이터, 특정 기관 데이터, M2M 데이터, Linked Open Data(LOD) 등 외부에서 얻을 수 있는 데이터입니다. citeturn0search7

1.3 데이터 수집 기술

데이터 유형에 따라 적합한 수집 기술이 다릅니다:

  • 정형 데이터: ETL(Extract, Transform, Load), FTP, API, DBtoDB, Sqoop 등을 사용합니다.
  • 비정형 데이터: 크롤링, RSS, Open API, Scrapy, Apache Kafka 등을 활용합니다.
  • 반정형 데이터: Sensing, Streaming, Flume, Scribe, Chukwa 등을 이용합니다. citeturn0search0

2. 데이터 유형 및 속성 파악

데이터를 효과적으로 수집하고 활용하기 위해서는 데이터의 유형과 속성을 정확히 파악해야 합니다.

2.1 데이터 유형

  • 구조적 관점
    • 정형 데이터: 고정된 스키마 구조를 가지며, 관계형 데이터베이스나 스프레드시트 등이 이에 해당합니다.
    • 반정형 데이터: 스키마는 있으나 값과 형식이 일관되지 않은 데이터로, XML, JSON, 웹 로그 등이 포함됩니다.
    • 비정형 데이터: 스키마 구조가 없으며, SNS 데이터, 이미지, 오디오, 비디오 등이 이에 속합니다. citeturn0search0
  • 존재 형태
    • 실시간 데이터: 데이터 생성 즉시 분석에 활용되는 센서 데이터, 시스템 로그 등이 있습니다.
    • 비실시간 데이터: 일정 기간 누적하여 분석하는 웹 로그, 구매 정보 등이 해당됩니다. citeturn0search0
  • 저장 형태
    • 파일: 텍스트, 로그 파일 등.
    • 데이터베이스: RDB, NoSQL 등.
    • 콘텐츠: 텍스트, 이미지, 오디오 등.
    • 스트림: 실시간으로 전송되는 센서 데이터, HTTP 트랜잭션 등이 있습니다. citeturn0search0

2.2 데이터 속성 파악

  • 범주형 데이터(정성적 데이터)
    • 명목형: 의미만 구분되는 데이터로, 예를 들어 성별, 지역 등이 있습니다.
    • 순서형: 순서나 등급을 나타내는 데이터로, 예를 들어 만족도 수준 등이 있습니다. citeturn0search0
  • 수치형 데이터(정량적 데이터)
    • 이산형: 셀 수 있는 값으로, 예를 들어 제품 개수 등이 있습니다.
    • 연속형: 연속적인 값을 가지는 데이터로, 예를 들어 키, 몸무게 등이 있습니다. citeturn0search0

3. 데이터 변환

수집한 데이터를 분석에 적합한 형태로 변환하는 과정입니다.

3.1 데이터 전처리

  • 필터링: 오류, 공백, 중복 데이터를 제거하여 데이터 품질을 향상시킵니다.
  • 변환: 데이터 유형을 변환하거나 평활화, 집계, 일반화, 정규화, 속성 생성 등의 기법을 사용합니다.
  • 정제: 결측치를 채우고 이상치를 제거하여 데이터를 정제합니다. citeturn0search0

3.2 데이터 후처리

  • 통합: 추가 속성을 통합하여 데이터를 풍부하게 만듭니다.
  • 축소: 불필요한 항목을 제거하여 데이터의 효율성을 높입니다.
  • 변환: 데이터 유형을 변환하여 분석에 적합한 형태로 만듭니다. citeturn0search0

4. 데이터 비식별화

개인정보를 보호하기 위해 데이터를 비식별화하는 과정입니다.

  • 사용자 인증: 접근 자격을 확인하는 기술입니다.
  • 접근제어: 객체에 대한 권한을 확인하고 통제하는 기술입니다.
  • 암호화: 암호화 알고리즘을 통해 데이터를 해독 불가능한 상태로 만드는 기술입니다.
  • 개인정보 비식별화: 개인을 특정할 수 없도록 처리하는 기술입니다.
  • 개인정보 암호화: 데이터베이스에서 개인정보가 포함된 특정 필드를 암호화하여 저장하는 기술입니다. citeturn0search0

5. 데이터 품질 검증

 

정형 데이터

  • 완전성: 필수항목에 누락이 없어야한다.
  • 유효성: 데이터 항목은 유일해야하며 중복되어서는 안된다.
  • 일관성: 데이터가 지켜야할 구조, 값, 표현되는 형태가 일관되게 정의되고, 서로 일치해야한다.
  • 유효성: 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.
  • 정확성: 실세계에 존재하는 객체의 표현 값이 정확히 반영되어야한다.

 

비정형 데이터

  • 기능성: 해당 컨텐츠가 특정 조건에서 사용될떄, 명시된 요구와 내재된 요구를 만족하는 기능을 제공하는정도
  • 신뢰성: 해당 컨텐츠가 규정된 조건에서 사용될 때 규정된 신뢰 수준을 유지하거나 사용자로 하여금 오류를 방지할 수 있도록 하는 정도
  • 사용성: 해당 컨텐츠가 규정된 조건에서 사용될 떄, 사용자에 의해 이해되고, 선호될 수 있게 하는 정도
  • 효율성: 해당 컨첸츠가 규정된 조건에서 사용되는 지원의 양에 따라 요구되는 성능을 제공하는 정도
  • 이식성: 해당 컨텐츠가 다양한 환경과 상황에서 실행할 가능성

 

728x90
반응형