ICT STATION
Language
title-icon
모든 데이터의 집합소, '데이터 레이크'
ICT 기술의 진화에 따라 전 세계적으로 생성되는 데이터량은 2025년에 163ZB(제타 바이트)로 2016년 대비 약 10배 규모로 급성장, 글로벌 데이터 레이크 시장은 2024년도에 200억 달러에 이를 전망도 나오고 있다. 이 중 최대 90%는 비정형 데이터 또는 반정형 데이터로, 모든 데이터를 저장하고, 신속하게 처리해야 한다는 두 가지 과제가 주어졌다. 데이터 레이크는 기간계 시스템의 구조화 된 데이터뿐만 아니라 비정형 데이터를 포함한 빅데이터를 공통의 데이터 기반에 모아 거기에서 데이터 활용으로 전개하는 구조이다. 실시간 분석과 기계 학습·AI를 사용한 예측 분석 등 디지털화에 의한 분석 요구의 다양화·복잡화에 따라, 최근 관심이 높아지고 있다.

데이터 레이크는 여러 소스에서 빅데이터를 고유의 형태로 유지하는 중앙 스토리지 저장소를 말한다. 정형 데이터, 반정형 데이터, 비정형 데이터를 모두 저장할 수 있고, 데이터를 저장할 때 식별자와 메타 데이터 태그를 연결하여 검색을 고속화할 수 있다.

데이터 레이크는 규모에 상관없이 모든 구조화 데이터와 비구조화 데이터를 저장할 수 있는 일원화된 저장소이다. 또한, 대시보드나 시각화, 빅데이터 처리, 실시간 분석, 기계학습 등 다양한 유형의 분석을 실행하여 의사결정에 도움을 준다.
-AWS 아마존
데이터 레이크란?
[Snowflake : Data Lake]
[Snowflake : Data Lake]
데이터 레이크 vs 데이터웨어 하우스
[Grazitti Interactive : Data Lake vs Data Warehouse]
[Grazitti Interactive : Data Lake vs Data Warehouse]
데이터 레이크 데이터웨어 하우스
데이터 구조 Schema on Read Schema on Write
사용자 데이터 과학자 비즈니스 담당자
데이터 종류 대부분의 데이터 목적에 적합한 데이터
접근성과 유용성 용이 어려움
데이터 레이크와 AI의 활용
[datawarehouseinfo : Data Marts, Lakes, and Warehouses – Understanding the Differences]
[datawarehouseinfo : Data Marts, Lakes, and Warehouses – Understanding the Differences]
데이터 늪(data swamp)
[Lore IO :Getting Rescued From the Data Swamp]
[Lore IO :Getting Rescued From the Data Swamp]
참조

-
James Dixon’s Blog : Union of the State – A Data Lake Use Case
-
Thorn Technologies LLC : How data lakes, data warehouses, and data marts fit into your cloud storage architecture
-
DATA WAREHOUSE INFORMATION CENTER : Data Marts, Lakes, and Warehouses – Understanding the Differences
-
Tech Target : Data warehouse vs. data lake: Key differences
-
[할맗하당 D-Tuber] AWS기반 데이터 레이크(Data Lake) 플랫폼 구축 사례
TOP
◀   이전 글
다음 글   ▶