PART 1: 빅데이터 분석 기획
Chapter 01: 빅데이터의 이해
Sector 01: 데이터와 정보
1. 데이터와 정보
데이터(Data)는 가공되지 않은 원시적인 값이나 사실을 의미하며, 정보(Information)는 데이터를 가공하여 의미를 부여한 것입니다. 데이터가 유의미한 정보를 제공할 수 있도록 가공되면 의사결정에 활용할 수 있습니다.
1.1. 데이터 구분
데이터는 정량적 데이터(Quantitative Data)와 정성적 데이터(Qualitative Data)로 구분됩니다.
데이터 유형 설명 예시
정량적 데이터 | 수치로 표현할 수 있는 데이터 | 매출액, 사용자 수, 평균 점수 |
정성적 데이터 | 숫자로 표현하기 어려운 데이터 | 고객 리뷰, 설문조사 응답, 감성 분석 결과 |
✅ 시험 출제 포인트
- 정량적 데이터와 정성적 데이터의 개념 비교
- 정량적 데이터는 분석이 용이하지만, 정성적 데이터는 의미 해석이 필요
1.2. 데이터 유형
빅데이터는 형태에 따라 정형 데이터(Structured Data), 반정형 데이터(Semi-Structured Data), 비정형 데이터(Unstructured Data)로 분류됩니다.
정형 데이터 | 구조화된 형태의 데이터 | 데이터베이스, 엑셀, ERP 시스템 |
반정형 데이터 | 일정한 구조가 있지만 완전한 정형 데이터는 아님 | XML, JSON, 로그 파일 |
비정형 데이터 | 고정된 형식이 없는 데이터 | 이미지, 동영상, 소셜미디어 글 |
✅ 시험 출제 포인트
- 정형 데이터는 RDBMS(관계형 데이터베이스)에서 주로 사용됨
- 비정형 데이터는 NoSQL과 같은 비관계형 데이터베이스에서 저장 및 분석
1.3. 지식 창조 메커니즘 (SECI 모델)
노나카와 다케우치는 조직 내에서 지식이 창출되는 과정을 SECI 모델로 설명하며, 이는 공통화(Socialization), 표출화(Externalization), 연결화(Combination), 내면화(Internalization)의 4단계로 이루어집니다.
공통화(Socialization) | 경험을 공유하여 암묵지를 전달 | 신입사원이 선배의 업무 방식 학습 |
표출화(Externalization) | 암묵지를 문서화하여 형식지로 변환 | 회의록, 매뉴얼 작성 |
연결화(Combination) | 여러 형식지를 결합하여 새로운 지식 창출 | 보고서를 통해 경영 전략 수립 |
내면화(Internalization) | 형식지를 실천하여 암묵지로 습득 | 교육받은 내용을 실무에 적용 |
✅ 시험 출제 포인트
- 조직 내에서 지식이 확산되는 과정과 각 단계의 특징
1.4. 데이터, 정보, 지식, 지혜 매커니즘 (DIKW 모델)
데이터가 가치 있는 정보로 변환되고, 이를 바탕으로 지식과 지혜가 형성되는 과정을 DIKW 피라미드라고 합니다.
데이터(Data) | 가공되지 않은 사실 | "일일 매출 100건" |
정보(Information) | 데이터를 가공하여 의미를 부여 | "매출이 전주 대비 20% 증가" |
지식(Knowledge) | 정보를 분석하여 패턴을 파악 | "광고를 진행한 날 매출이 상승함" |
지혜(Wisdom) | 지식을 활용하여 최적의 의사결정을 내림 | "광고 최적화 전략 수립" |
✅ 시험 출제 포인트
- DIKW 모델의 각 단계에서 데이터가 어떻게 가공되고 활용되는지 이해
2. 데이터베이스
2.1. 데이터베이스 정의
데이터베이스(Database)는 데이터를 효율적으로 저장, 관리, 검색, 수정할 수 있도록 체계적으로 구성한 데이터의 집합입니다.
✅ 시험 출제 포인트
- 데이터베이스의 기본 개념과 필요성
2.2. 데이터베이스 관리 시스템(DBMS)
데이터베이스 관리 시스템(Database Management System, DBMS)은 데이터를 효율적으로 저장, 관리, 검색, 수정할 수 있도록 도와주는 소프트웨어입니다.
DBMS는 대량의 데이터를 체계적으로 관리하고, 데이터의 무결성(Integrity), 일관성(Consistency), 보안(Security)을 유지하면서 여러 사용자가 동시에 데이터를 처리할 수 있도록 설계되었습니다.
✅ DBMS의 주요 기능
데이터 저장 및 관리 | 데이터를 효율적으로 저장하고 조직화 |
데이터 검색 및 조회 | SQL 등의 질의(Query)를 통해 원하는 데이터 조회 |
데이터 수정 및 삭제 | 기존 데이터를 변경하거나 삭제 |
동시성 제어 | 여러 사용자가 동시에 데이터에 접근할 때 일관성을 유지 |
보안 및 권한 관리 | 사용자 계정 관리 및 데이터 접근 권한 설정 |
백업 및 복구 | 데이터 손실 시 복구를 위한 백업 기능 제공 |
📌 DBMS의 종류
DBMS는 데이터 저장 구조와 처리 방식에 따라 크게 관계형 데이터베이스(RDBMS)**와 비관계형 데이터베이스(NoSQL)로 나뉩니다.
1️⃣ 관계형 데이터베이스 관리 시스템(RDBMS)
관계형 데이터베이스(RDBMS, Relational Database Management System)는 정형화된 데이터(Structured Data)를 테이블(Table) 형태로 저장하며, 각 테이블은 특정한 관계(Relationship)를 갖습니다.
✅ RDBMS의 주요 특징
- 데이터를 행(Row)과 열(Column) 구조의 테이블 형태로 저장
- 데이터 간 관계(Relationship)를 기반으로 정규화(Normalization)하여 중복을 최소화
- SQL(Structured Query Language)을 사용하여 데이터 검색, 삽입, 삭제, 수정 가능
- ACID(원자성, 일관성, 고립성, 지속성) 특성을 보장하여 데이터의 무결성과 안정성을 유지
- 대량의 데이터 처리보다는 트랜잭션 기반의 애플리케이션(예: 은행, ERP 시스템)에 적합
📌 대표적인 RDBMS 종류
MySQL | 오픈소스 RDBMS, 웹 애플리케이션에서 널리 사용 (WordPress, e-commerce) |
PostgreSQL | 확장성이 뛰어나고 다양한 데이터 유형 지원 (GIS, 금융 분야) |
Oracle Database | 대규모 기업 환경에서 사용, 강력한 보안 및 성능 |
Microsoft SQL Server | 마이크로소프트 제품과의 높은 호환성, 기업용 솔루션 |
IBM Db2 | 대형 엔터프라이즈 시스템에서 사용되는 고성능 DBMS |
✅ 시험 출제 포인트
- 관계형 데이터베이스의 테이블 구조와 데이터 정규화 개념
- ACID(원자성, 일관성, 고립성, 지속성) 개념
- RDBMS가 적합한 분야 (은행, 회계, ERP 시스템 등)
2️⃣ 비관계형 데이터베이스 관리 시스템(NoSQL)
**NoSQL(Not Only SQL)은 정형 데이터뿐만 아니라 반정형 및 비정형 데이터도 유연하게 저장하고 처리할 수 있는 데이터베이스입니다.
관계형 데이터베이스보다 확장성과 성능이 뛰어나며, 특히 빅데이터 처리 및 대량의 트래픽을 요구하는 웹 서비스에서 많이 사용됩니다.
✅ NoSQL의 주요 특징
- 테이블 대신 다양한 데이터 모델(Key-Value, Document, Column, Graph) 활용
- 스키마(Schema)가 고정되지 않아 데이터 구조가 유연함
- 수평적 확장(Scale-out)이 용이하여 대량의 데이터를 빠르게 처리 가능
- 데이터 정합성보다는 속도와 확장성을 우선
- CAP 이론(Consistency, Availability, Partition Tolerance)을 기반으로 설계
📌 NoSQL의 주요 유형 및 대표 DBMS
NoSQL 유형 | 설명 | 대표 DBMS |
키-값 저장소(Key-Value Store) | 키(Key)와 값(Value) 쌍으로 데이터를 저장 | Redis, Amazon DynamoDB |
문서 지향(Document Store) | JSON, BSON 등의 문서 형태로 저장 | MongoDB, CouchDB |
열 기반(Column-Oriented) | 행이 아니라 열(Column) 중심으로 데이터를 저장 | Apache Cassandra, HBase |
그래프 데이터베이스(Graph DB) | 노드(Node)와 관계(Edge)로 데이터를 저장 | Neo4j, Amazon Neptune |
✅ 시험 출제 포인트
- NoSQL의 다양한 데이터 모델과 각각의 특성
- NoSQL이 적합한 분야 (빅데이터, 실시간 분석, 소셜미디어 서비스 등)
- RDBMS와 NoSQL의 차이점
📌 관계형 데이터베이스(RDBMS) vs. NoSQL 비교
비교 항목 | RDBMS (관계형 DB) | NoSQL (비관계형 DB) |
데이터 구조 | 테이블(Table) 기반 | Key-Value, Document, Column, Graph 등 |
데이터 관계 | 정규화를 통해 관계 설정 | 관계 설정 없음 (데이터 중복 허용) |
확장성 | 수직적 확장(Scale-up) | 수평적 확장(Scale-out) |
스키마(Schema) | 고정된 스키마 | 유연한 스키마 |
쿼리(Query) | SQL 사용 | NoSQL 또는 API 기반 질의 |
ACID 특성 | 보장 (높은 일관성) | 일부 모델은 보장하지 않음 (높은 가용성) |
적합한 용도 | 금융, ERP, 전자상거래 | 빅데이터, IoT, 소셜 미디어 |
✅ 시험 출제 포인트
- 관계형 데이터베이스(RDBMS)와 NoSQL의 차이점을 비교하는 문제가 자주 출제됩니다.
- SQL 기반의 관계형 데이터베이스가 적합한 환경과 NoSQL이 적합한 환경을 구별하는 문제가 출제될 가능성이 높습니다.
✅ 시험 출제 포인트
- 관계형 데이터베이스와 NoSQL의 차이점
2.3. 데이터베이스의 특징
데이터베이스는 일관성, 무결성, 보안성, 동시성 제어 등의 특징을 갖습니다.
1️⃣ 일관성(Consistency)
- 데이터베이스의 상태가 항상 일관된 상태를 유지해야 함
- 트랜잭션이 실행되기 전과 후의 데이터가 정합성(정확한 규칙)을 유지해야 함
- 예: 은행 계좌 이체 시, 한 계좌에서 돈이 빠져나가면 다른 계좌에 동일한 금액이 추가되어야 함
2️⃣ 무결성(Integrity)
- 데이터의 정확성과 신뢰성을 유지
- 제약 조건(Primary Key, Foreign Key, Unique 등)을 통해 잘못된 데이터 입력 방지
- 예: 주민등록번호는 중복될 수 없음
3️⃣ 보안성(Security)
- 사용자 권한 관리를 통해 데이터 접근을 제한
- 암호화, 인증, 접근 제어 등을 활용하여 데이터 유출 및 불법 변경 방지
- 예: 관리자만 고객 정보를 수정할 수 있도록 설정
4️⃣ 동시성 제어(Concurrency Control)
- 여러 사용자가 동시에 데이터에 접근할 때 일관성을 유지하는 기법
- Locking(잠금) 기법, 트랜잭션 격리 수준 등을 활용
- 예: 온라인 쇼핑몰에서 여러 사용자가 같은 상품을 구매할 때, 재고가 정확히 반영되도록 관리
📌 2. ACID 특성 (데이터베이스 트랜잭션의 핵심 개념)
ACID는 데이터베이스에서 트랜잭션(Transaction)이 안전하게 처리되도록 보장하는 4가지 특성입니다.
1. 원자성(Atomicity) | 트랜잭션은 완전히 실행되거나 전혀 실행되지 않아야 함 (All or Nothing) | 은행 송금 중 오류 발생 시, 돈이 빠져나갔다면 다시 복구 |
2. 일관성(Consistency) | 트랜잭션 수행 후에도 데이터 정합성이 유지되어야 함 | A 계좌에서 100만 원 인출 → B 계좌에 100만 원 입금 |
3. 격리성(Isolation) | 여러 트랜잭션이 동시에 실행될 때 서로 간섭하지 않도록 보장 | 동시에 같은 상품을 구매할 때, 재고가 정확하게 반영됨 |
4. 지속성(Durability) | 트랜잭션이 완료되면 데이터가 영구적으로 저장 | 전원 장애 후에도 트랜잭션 결과가 보존됨 |
✅ 시험 출제 포인트
- ACID 4가지 특성의 개념 및 예시 숙지
- 트랜잭션이 왜 필요한지, 각 특성이 어떻게 데이터 무결성을 보장하는지 이해
2.4. 데이터베이스 활용 (OLTP vs. OLAP 비교)
OLTP는 사용자가 입력한 데이터를 실시간으로 처리하는 시스템으로, 기업의 일상적인 운영(Transaction)과 관련된 업무를 처리하는 데 최적화되어 있습니다.
OLAP는 대량의 데이터를 분석하여 의사결정을 지원하는 시스템으로, 다차원 데이터 분석(Multidimensional Analysis)을 통해 패턴과 추세를 발견하는 데 최적화되어 있습니다.
목적 | 실시간 트랜잭션 처리 | 데이터 분석 및 의사결정 |
사용 사례 | 은행 거래, 쇼핑몰 결제, 항공권 예매 | 매출 분석, 고객 행동 분석, 시장 트렌드 예측 |
데이터 구조 | 정규화된 데이터 (중복 최소화) | 다차원 데이터 모델 (중복 허용) |
처리 방식 | 소규모 트랜잭션을 빠르게 처리 | 대량의 데이터 조회 및 복잡한 분석 수행 |
속도 | 빠른 응답 시간 (밀리초 단위) | 상대적으로 느린 응답 (대량 데이터 처리) |
사용자 | 일반 사용자 (소비자, 직원) | 데이터 분석가, 경영진 |
예제 시스템 | ERP 시스템, POS 시스템 | 데이터 웨어하우스, BI 시스템 |
✅ 시험 출제 포인트
- OLTP와 OLAP의 차이점 및 각각의 활용 사례 비교 문제 출제
2.5. 데이터 웨어하우스
데이터 웨어하우스(Data Warehouse, DW)는 다양한 원천에서 수집된 대량의 데이터를 저장하고, 분석을 위한 구조로 변환하여 제공하는 중앙 집중형 데이터 저장소입니다.
OLAP(Online Analytical Processing)과 연계되어 데이터 분석 및 의사결정 지원에 활용됩니다.
주제 지향성(Subject-Oriented) | 특정 주제(매출, 고객, 제품 등)별로 데이터를 저장 |
통합성(Integrated) | 여러 데이터 소스(ERP, CRM, POS 등)에서 데이터를 가져와 일관된 형식으로 변환 |
시간 가변성(Time-Variant) | 과거부터 현재까지의 데이터를 축적하여 시간에 따른 변화 분석 가능 |
비휘발성(Non-Volatile) | 한 번 저장된 데이터는 변경되지 않으며, 분석 목적으로만 활용 |
✅ 시험 출제 포인트
- 데이터 웨어하우스의 4가지 주요 특징(주제 지향성, 통합성, 시간 가변성, 비휘발성)
- OLTP와 OLAP의 차이점과 데이터 웨어하우스의 역할
📌 데이터 웨어하우스의 구성 요소
ETL(Extract, Transform, Load) 프로세스 | 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정 |
데이터 저장소 | 데이터가 정리되어 저장되는 공간 (Fact Table, Dimension Table) |
OLAP 엔진 | 다차원 데이터 분석을 수행하는 핵심 모듈 |
BI(Business Intelligence) 도구 | 데이터 시각화 및 보고서 생성 (Tableau, Power BI 등) |
📌 데이터 웨어하우스 vs. 데이터베이스 비교
비교 | 데이터 웨어하우스 | 데이터베이스 (OLTP) |
목적 | 분석 및 의사결정 지원 | 실시간 트랜잭션 처리 |
데이터 구조 | 다차원 데이터 모델 | 정규화된 관계형 데이터 모델 |
데이터 업데이트 | 주기적으로 배치 처리 | 실시간 데이터 입력 및 수정 |
사용자 | 데이터 분석가, 경영진 | 일반 사용자, 직원 |
예시 시스템 | BI, 보고서, 대시보드 | ERP, POS 시스템 |
✅ 시험 출제 포인트
- 데이터 웨어하우스와 일반 데이터베이스(OLTP)의 차이점
- ETL, OLAP, BI 등의 개념과 역할 이해
3. 빅데이터 개요
3.1. 빅데이터 특징 (전통적 데이터와의 비교)
빅데이터(Big Data)는 기존 데이터보다 규모가 크고, 생성 속도가 빠르며, 다양한 형태를 포함하는 데이터를 의미합니다.
📌 빅데이터의 3V 특성
빅데이터는 일반적으로 3V(Volume, Velocity, Variety) 특성을 가지고 있으며, 최근에는 정확성(Veracity)과 가치(Value)를 추가한 5V 모델도 사용됩니다.
특징 | 설명 |
1. 크기(Volume) | 데이터의 양이 기하급수적으로 증가 |
2. 속도(Velocity) | 데이터가 실시간 또는 빠른 속도로 생성 및 처리됨 |
3. 다양성(Variety) | 정형, 반정형, 비정형 데이터 포함 |
4. 정확성(Veracity) | 데이터의 신뢰성과 품질이 중요 |
5. 가치(Value) | 데이터를 통해 가치를 창출할 수 있어야 함 |
📌 전통적 데이터 vs. 빅데이터 비교
비교 항목 | 전통적 데이터 | 빅데이터 |
데이터 크기 | 테라바이트(TB) 수준 | 페타바이트(PB) 이상 |
데이터 구조 | 정형 데이터 위주(RDBMS) | 정형, 반정형, 비정형 데이터 포함 |
데이터 처리 방식 | 배치(Batch) 처리 | 실시간(Real-time) 또는 분산 처리 |
분석 기술 | SQL, 통계 분석 | 머신러닝, AI, 데이터 마이닝 |
저장 기술 | 관계형 데이터베이스 | 분산 스토리지(HDFS, NoSQL) |
✅ 시험 출제 포인트
- 빅데이터의 3V(또는 5V) 개념과 전통적 데이터와의 차이점
- 빅데이터 분석을 위해 필요한 기술 스택(Hadoop, Spark 등) 이해
3.2. 빅데이터의 기능과 효과
빅데이터는 단순한 데이터 저장을 넘어 실시간 분석, 패턴 분석, 머신러닝을 통한 예측 모델 생성 등의 기능을 제공합니다.
📌 빅데이터의 주요 기능
1. 실시간 분석(Real-time Analytics) | 실시간으로 데이터를 수집하고 분석하여 즉각적인 의사결정 가능 |
2. 패턴 분석(Pattern Recognition) | 과거 데이터를 기반으로 패턴을 발견하여 미래 예측 가능 |
3. 머신러닝 및 AI 적용 | 데이터 학습을 통해 자동으로 최적의 결과 도출 |
4. 자동화된 의사결정 | AI 및 빅데이터 기반으로 자동화된 의사결정 시스템 구축 |
📌 빅데이터의 효과
효과 | 설명 |
비즈니스 최적화 | 기업이 데이터 기반으로 최적의 의사결정을 내릴 수 있도록 지원 |
고객 경험 향상 | 개인 맞춤형 서비스 제공 (예: 아마존의 추천 시스템) |
리스크 관리 | 금융, 보안 분야에서 사기 탐지 및 이상 징후 감지 |
공공 서비스 개선 | 의료, 교통, 환경 문제 해결을 위한 정책 수립 지원 |
✅ 시험 출제 포인트
- 빅데이터의 핵심 기능(실시간 분석, 패턴 분석, 머신러닝 적용)과 실무 적용 사례 이해
- 빅데이터의 비즈니스 및 공공 서비스 분야에서의 효과 정리
CH 01-04: 데이터 산업의 이해
4.1. 데이터 산업의 진화
데이터 산업은 기술 발전에 따라 AI, 클라우드, IoT 등의 개념과 결합하여 발전하고 있습니다.
4.2. 데이터 권리 시대 - 마이데이터(MyData)
마이데이터(MyData)는 개인이 자신의 데이터를 직접 관리하고 활용할 수 있도록 하는 개념으로, 데이터 주권을 개인에게 돌려주는 새로운 데이터 패러다임입니다.
기존에는 기업이나 기관이 데이터를 독점적으로 보유하고 활용했지만, 마이데이터를 통해 개인이 자신의 정보를 직접 관리하고, 원하는 곳에 제공하여 맞춤형 서비스를 받을 수 있도록 하는 것이 핵심입니다.
✅ 마이데이터의 주요 개념 및 특징
개념설명
데이터 주권(Data Sovereignty) | 개인이 자신의 데이터를 직접 관리하고 통제할 수 있는 권리 |
정보 이동권(Data Portability) | 개인이 원하는 기관이나 서비스에 데이터를 이전할 수 있는 권리 |
맞춤형 서비스 제공 | 개인의 데이터를 활용하여 금융, 의료, 교육 등에서 맞춤형 서비스 제공 |
보안 및 프라이버시 보호 | 개인 데이터 보호 |
✅ 시험 출제 포인트
- 데이터 산업의 변천 과정
4.2. 데이터 산업의 구조
데이터 산업은 인프라 영역(클라우드, 서버)과 서비스 영역(데이터 분석, 인공지능 서비스)으로 구성됩니다.
① 인프라 영역
데이터 수집, 저장, 분석, 관리 등의 기능을 담당한다.
컴퓨터나 네트워크 장비 및 스토리지 같은 하드웨어 영역이 있다.
데이터를 관리하고 분석하기 위한 소프트웨어 영역이 있다.
② 서비스 영역
• 데이터를 활용하기 위한 교육이나 컨설팅 또는 솔루션을 제공한다.
• 데이터 그 자체를 제공하거나 이를 가공한 정보를 제공한다.
• 데이터를 처리하는 역할을 담당하기도 한다.
✅ 시험 출제 포인트
- 데이터 산업의 구조와 역할
추가 내용
데이터 사이언티스트 하드 스킬 & 소프트 스킬
💡 도움이 되셨다면 댓글과 공감 부탁드립니다! 😊
📌 더 많은 알고리즘 풀이와 프로그래밍 자료는 블로그에서 확인하세요!
✉️ 문의나 피드백은 댓글이나 이메일로 남겨주세요.
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[P01CH03S01] 데이터 수집 및 전환 (0) | 2025.03.12 |
---|---|
[P01CH02S01] 분석 방안 수립 (1) | 2025.03.11 |
[P01CH01S02]: 빅데이터 기술 및 제도 (0) | 2025.03.11 |
PART 1: 빅데이터 분석 기획 (0) | 2025.03.10 |
PART 0: 2025년 빅데이터분석기사 독학 (feat. 시험 일정 및 개요, 이기적 교재) (0) | 2025.03.10 |