HOME > BUSINESS > Big Data
Big Data
기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 데이터 셋(set)


Open Source
기술 표준 수립을 위한 Big Data관련 오픈 소스 소프트웨어(Open Source Software:OSS)를 역할 및
기능에 따라 분류체계를 구성

분류 체계 설명
■Big Data관련 OSS를 주요 기능에 따라 분류 체계를 도식화
■ 각 분류 체계내의 OSS는 해당 영역에서의 대표적이고 사용 빈도가 높은 기술
■ 기술 표준 수립을 위한 대상 영역 중 Analysis/BI 와 Search 영역은 서비스 및 기능적 요구사항에 따라
중요도가 달라 질 수 있음
■ OSS 분류 체계는 일반적인 주요 기능에 대한 분류임


적용기술 (솔루션)
【 적용 기술 (Bigdata 솔루션) 】



아키텍처 구성도
【 시스템 구성도 】


  1. Node 구성
    펼치기접기
    【 시스템 구성도 】

    ■ Data 작업 Control를 위한 Name node (2 대 이중화)와 워크플로우 관리를 위한 oozie 서버를
    포함한 3대의 Management Nodes 구성
    ■ 데이터 처리를 위한 34 대의 Data Nodes 구성

  2. Failover 구성(HA)
    펼치기접기
    【 HA 구성도 】

    【 HA 구축 내용 】
    Flume HA
    ■ Zookeeper Node Master Election
    ■ Zookeeper 이용한 Supervisor Mode
    ■ Google Guide 의 Dependency Injection
       - Command Pattern 적용
       - 확장성 용이
       - 2개의 Class 작성 및 1개의 Invoker로 HA 확장

    Flume HA 시나리오
    ① HA Agent는 3~5초간 oozie 데몬 감시
    ② HA Agent는 대기 및 oozie 데몬 감시
    ① HA Agent 장애가 발생하면, ② HA Agent는 즉시 oozie 데몬 감시하고 Master Election 권한을 가짐
    하나의 HA Agent가 감시하는 동안 다른 HA Agent는 Running 모드이지만 작동하지 않음 → Zookeeper ZNode에 lock 발생

시스템 구성 사례
  1. 비지니스 기능1 – 수집
    펼치기접기
    【 Big Data 수집 Process 】
    A System의 데이터는 Big Data의 FTP서버를 통해 전달 받으며, FTP 서버는 파일시스템 어댑터를
    통해서 Big Data 내의 스토리지 시스템에 3중 분산 복제되어 저장되는 구조임

    ① 원천데이터 압축데이터 전송:
        원천 데이터를 시간 당 20개의 gzip 파일로 압축하여 Big Data FTP서버로 전송
    ② 파일시스템 어댑터:
        FTP로 전송 받은 데이터는 파일시스템 어댑터인 FUSE를 통해서 HDFS로 전달
    ③ 데이터 복제/저장 스케쥴링:
        서버, 네트워크 토팔로지(topology)를 고려하여 데이터 저장 노드 선택 및 저장
    ④ 파이프라인 데이터 저장:
        데이터 저장 시 DELAY를 방지하기 위해 파이프라인 방식으로 저장

  2. 비지니스 기능2 – 처리
    펼치기접기
    【 Big Data 처리 Process 】
    System1에서 Big Data로 원천데이터는 Big Data에서 Data Validation Check, Data Summary,
    Data Export, Data Logging 4 단계를 거쳐 데이터 처리 후 서비스로 연동함

    ① Data Validation Check :
        System1에서 유입된 Metadata File과 Input File의 이름, 크기 등의 정합성을 체크
    ② Data Summary :
        Sub1, Sub2 데이터 Cleansing 후 Userdata, APP 별 등으로 시간대 별 요약정보를 생성
    ③ Data Export : 생성된 시간대 별 요약정보를 서비스의 DB Table에 Upload
    ④ Data Logging : Upload한 데이터를 분류별로 Input 건수 서비스 DB에 적재