-
[PlayData - Day 81] 빅데이터 이해와 파일럿 프로젝트[플레이데이터] 2023. 4. 18. 10:28
1. K-Digital Training 과정
- 빅데이터 기반 지능형SW 및 MLOps 개발자 양성과정 19기 (Day 81)
2. 목차
3. 수업 내용
※ 아래 내용은 <실무로 배우는 빅데이터 기술> 교재를 참고하고 있습니다.
1.6 빅데이터 구현 기술
--전처리--
(1) 수집 - 내·외부 데이터 연동 / 내·외부 데이터 통합
(2) 적재 - 대용량/실시간 데이터 처리 / 분산 파일 시스템(HDFS) 저장
(3) 처리 - 데이터 선택, 변환, 통합, 축소 / 데이터 워크플로 및 자동화
--후처리--
(4) 탐색 - 대화형 데이터 질의 / 탐색적 Ad-Hoc 분석 -
(5) 분석 - 빅데이터 마트 구성 / 통계 분석, 고급 분석
-- 활용 --
(6) 응용 - 보고서 및 시각화 / 분석 정보 제공 - Power BI(시각화 툴)
CEP(Complex Event Processing): 실시간으로 발생되는 많은 사건 중에서 의미가 있는 것만 추출할 수 있도록 사전에 발생 조건을 정의해서 수집하는 개념
주로 사용되는 분야: 금융(실시간으로 변화하는 대표적인 분야), 물류(배송시간, 위치 등 실시간으로 변화), 국방(실시간 탐색), 통신 등...
ESP(실시간으로 전송되는 대용량 데이터), (1) 서비스와 서비스간 교환 형태 (2) (플랫폼이 다른 경우) 이종간 데이터 전환-교환 (3) 서비스 간에 대용량 데이터들을 주고받을 때 신뢰성 있게 주고받을 수 있도록 처리하는 기술
수집된 데이터로부터 이벤트를 감지해서 빠른 후속 처리를 할 수 있는 기술 = CEP, ESP
수집된 원천 데이터는 정제, 변환 작업, 필터링 등 처리과정이 필요하다.
이렇게 품질이 향상된 데이터를 빅데이터 저장소에 적재한다.
이 책에서 사용할 빅데이터 수집 소프트웨어 = Flume
실시간 스트림 데이터 처리를 위해 Storm, Esper 사용
적재기술
HDFS(하둡 분산 파일 처리 시스템) : 대용량 데이터 분산 저장할 때 사용
NoSQL : MongoDB, MariaDB 등. 주로 메시징 데이터를 저장할 때 사용
데이터의 일부만 임시 저장하기 위한 인메모리 캐시 : Redis가 대표적
MOM(Message Oriented Middleware) : 대규모 메시징 데이터 전체를 버퍼링 처리하기 위한 기술
적재를 위한 HDFS, 간단한 데이터 저장 NoSQL, 데이터 일부만 임시 저장 Redis, 메시징 저장소 Kafka
SQL on Hadoop
대화형 애드혹(Ad-Hoc) 쿼리
2장 빅데이터 파일럿 프로젝트
1. 파일럿 프로젝트 도메인의 이해
2. 빅데이터 파일럿 아키텍처 이해
3. 빅데이터 파일럿 프로젝트용 PC 환경 구성
4. 빅데이터 파일럿 프로젝트용 PC 서버 구성: 3개의 가상 머신을 생성하고, 분산 클러스터 환경을 구성하기 위한 3대의 리눅스 서버(CentOS)를 설치 및 구성한다. 이를 위해 Oracle VM Virtual Box 설치.
* 실제 컴퓨터가 5대 있고, 여기에 각자 접속해서 활용하는 것이 일반적.
5. CM(Cloudera Manager) 설치
6. 스마트카 로그 시뮬레이터 설치: 자바 필요
7. 파일럿 환경 관리
'[플레이데이터]' 카테고리의 다른 글
[PlayData - Day 94] Tableau 시각화 (0) 2023.05.09 [PlayData - Day 82~83] 가상환경 생성 및 서버 연결 (0) 2023.04.19 [PlayData - Day 53] 트리 알고리즘 (0) 2023.03.09 [PlayData - Day 52] 다양한 분류 알고리즘 (0) 2023.03.09 [PlayData - Day 51] 회귀 알고리즘과 모델 규제 (0) 2023.03.09