ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [PlayData - Day 81] 빅데이터 이해와 파일럿 프로젝트
    [플레이데이터] 2023. 4. 18. 10:28

    1. K-Digital Training 과정

    • 빅데이터 기반 지능형SW 및 MLOps 개발자 양성과정 19기 (Day 81)

    2. 목차

    1.  
    2.  

    3. 수업 내용

     

    ※ 아래 내용은 <실무로 배우는 빅데이터 기술> 교재를 참고하고 있습니다.

     

    1.6 빅데이터 구현 기술

    --전처리--

    (1) 수집 - 내·외부 데이터 연동 / 내·외부 데이터 통합

    (2) 적재 - 대용량/실시간 데이터 처리 / 분산 파일 시스템(HDFS) 저장

    (3) 처리 - 데이터 선택, 변환, 통합, 축소 / 데이터 워크플로 및 자동화

    --후처리--

    (4) 탐색 - 대화형 데이터 질의 / 탐색적 Ad-Hoc 분석 - 

    (5) 분석 - 빅데이터 마트 구성 / 통계 분석, 고급 분석

    -- 활용 --

    (6) 응용 - 보고서 및 시각화 / 분석 정보 제공 - Power BI(시각화 툴)

     

     

    CEP(Complex Event Processing): 실시간으로 발생되는 많은 사건 중에서 의미가 있는 것만 추출할 수 있도록 사전에 발생 조건을 정의해서 수집하는 개념

    주로 사용되는 분야: 금융(실시간으로 변화하는 대표적인 분야), 물류(배송시간, 위치 등 실시간으로 변화), 국방(실시간 탐색), 통신 등...

    ESP(실시간으로 전송되는 대용량 데이터), (1) 서비스와 서비스간 교환 형태 (2) (플랫폼이 다른 경우) 이종간 데이터 전환-교환 (3) 서비스 간에 대용량 데이터들을 주고받을 때 신뢰성 있게 주고받을 수 있도록 처리하는 기술

    수집된 데이터로부터 이벤트를 감지해서 빠른 후속 처리를 할 수 있는 기술 = CEP, ESP

    수집된 원천 데이터는 정제, 변환 작업, 필터링 등 처리과정이 필요하다.

    이렇게 품질이 향상된 데이터를 빅데이터 저장소에 적재한다.

     

    이 책에서 사용할 빅데이터 수집 소프트웨어 = Flume

    실시간 스트림 데이터 처리를 위해 Storm, Esper 사용

     

    적재기술

    HDFS(하둡 분산 파일 처리 시스템) : 대용량 데이터 분산 저장할 때 사용

    NoSQL : MongoDB, MariaDB 등. 주로 메시징 데이터를 저장할 때 사용

    데이터의 일부만 임시 저장하기 위한 인메모리 캐시 : Redis가 대표적

    MOM(Message Oriented Middleware) : 대규모 메시징 데이터 전체를 버퍼링 처리하기 위한 기술

     

    적재를 위한 HDFS, 간단한 데이터 저장 NoSQL, 데이터 일부만 임시 저장 Redis, 메시징 저장소 Kafka

     

    SQL on Hadoop

    대화형 애드혹(Ad-Hoc) 쿼리

     

    2장 빅데이터 파일럿 프로젝트

    1. 파일럿 프로젝트 도메인의 이해

    2. 빅데이터 파일럿 아키텍처 이해

    3. 빅데이터 파일럿 프로젝트용 PC 환경 구성

    4. 빅데이터 파일럿 프로젝트용 PC 서버 구성: 3개의 가상 머신을 생성하고, 분산 클러스터 환경을 구성하기 위한 3대의 리눅스 서버(CentOS)를 설치 및 구성한다. 이를 위해 Oracle VM Virtual Box 설치. 

    * 실제 컴퓨터가 5대 있고, 여기에 각자 접속해서 활용하는 것이 일반적.

    5. CM(Cloudera Manager) 설치

    6. 스마트카 로그 시뮬레이터 설치: 자바 필요

    7. 파일럿 환경 관리

    댓글

Designed by Tistory.