본문바로가기 주메뉴 바로가기

Solution

서비스 개요

실시간 데이터 수집 및 적재, 분석 데이터 저장 및 가공, 분석 및 학습/배포를 위한 통합 플랫폼

배경 및 필요성

  • 기업의 경쟁력 강화를 위한 데이터 기반 의사결정 필요성 대두
  • 지속가능한 경영을 위한 실시간, 대용량 데이터 수집 환경 필요
  • 데이터 활용에 대한 기대감 상승으로 빅데이터 플랫폼 수요도 확대 예상

목표시스템

빅데이터 플랫폼

제품 특징

Hadoop 3.x 기반 Data Lake 구축과 데이터 거버넌스, 데이터 저장소, 데이터 가상화를 위한 통합 빅데이터 플랫폼
실시간 데이터 수집 및 적재, 분석 데이터 저장 및 가공, 분석 및 학습/배포를 위한 통합 플랫폼
데이터 수집, 데이터 저장/처리, 데이터 분석, 시각화, 운영관리를 위한 통합 환경 제공
데이터 암호화, 데이터 비 식별(익명/가명) 처리
AD, LDAP, Kerberos 기반 접근 통제, 인증, 권한관리 기능 제공
빅데이터 플랫폼 제품 및 솔루션
빅데이터 플랫폼 제품 특징
구분 항목 설명
데이터 수집 Sqoop, NiFi, ETL Hadoop과 RDB간 데이터 전송 소프트웨어
Flume 대용량 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
Kafka 대용량, 대규모 메시지 데이터를 빠르게 처리하도록 개발된 분산 메시징 플랫폼
데이터 저장/처리 Hadoop(HDFS, YARN, MR2) 대용량 자료를 처리할 수 있는 분산 소프트웨어 프레임워크
PostgreSQL ORDB, Data Catalog(Metadata), Hive Metastore
Hbase HDFS에서 실행되는 비관계형(NoSQL) 데이터베이스
Kudu 고속 데이터에 대한 고속 분석용 스토리지
Hive, Tez Hadoop에서 동작하는 DW 인프라 구조로서 데이터 요약, 질의 및 분석 기능 제공
Spark 오픈 소스 클러스터 컴퓨팅 프레임워크(In-Memory, SQL 기반)
Impala, Presto 구조화 및 완성된 데이터를 대화형 쿼리를 제공하여 빠른 응답시간 보장
데이터 분석 Python, R ML, DL 기반 분석 도구, 통계 분석 도구, 오픈소스 고급 프로그래밍 언어
QGIS, ArcGIS 매핑 및 공간 분석 도구
SAS, SPSS, STATA 통계적 분석과 데이터 마이닝 도구
Elasticsearch 웹 UI와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 검색 엔진
시각화 BI(Tableau, Qlik, Power BI) OLAP 기능, 리포팅, 대시보드 및 EIS, 웹 퍼브리싱 및 Self Service 등 제공
Superset 페타(PB) 규모 데이터를 처리, 데이터 탐색 및 데이터 시각화 소프트웨어
운영관리 Manager(Ambari, Cloudera) Hadoop Cluster 구성, 관리, 모니터링
Kerberos, Knox, Ranger, Sentry 보안/인증/접근관리
Zookeeper 분산처리 코디네이터
Oozie Hadoop Job 워크플로우 스케줄러

관련기사

전주시, 해고 없는 도시 빅데이터로 풀어낸다
전주시가 해고 없는 도시를 비롯한 지역의 일자리와 관광 등의 문제를 충분한 자료를 토대로 한 빅데이터를 접목해서 해결해 나가기로 했다. 시는 22일 정부의 ‘한국판 뉴딜’ 정책에 발맞춰 빅데이터 분석으로 지역의 고용과 관광 분야의 사업방향을 도출하기 위한 전주시 빅데이터 활용위원회 위원을 위촉하고 활동을 본격화했다.(중략)