데이터 레이크란?
‘데이터 레이크’라는 용어는 데이터 통합 및 분석 플랫폼인 Pentaho의 CTO인 James Dixon의 블로그 ‘Union of the State - A Data Lake Use Case’에서 최초로 명명되었다.
데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리(Repository) 유형이다.
데이터 레이크를 사용하면 모든 데이터가 보존되며, 스토리지에 저장하기 전에 제거되거나 필터링되지 않고, 쿼리되기 전까지는 정의되지 않은 상태로 저장된다.
데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능한 상태로 변환된다.
즉, 사용자는 데이터 레이크에서 데이터를 다른 시스템으로 이동시킬 필요 없이 원하는 방식으로 데이터에 액세스하여 이를 탐색할 수 있다.
다른 플랫폼이나 다른 유형의 데이터 리포지토리에서 분석 리포트를 정기적으로 가져오는 대신 상황에 따라 인사이트 및 보고를 데이터 레이크에서 바로 얻을 수 있다.
[Snowflake : Data Lake]
데이터 레이크 vs 데이터웨어 하우스
데이터 레이크와 데이터웨어 하우스는 조직의 다양한 데이터 저장소를 통합하는 스토리지 저장소라는 점과 다양한 응용 프로그램에 데이터를 투입하는 데이터 저장소를
만드는 것을 목적으로 한다는 점에서 유사성을 가지기 때문에 혼동하기 쉽지만, 다음과 같은 점에서 구별된다.
[Grazitti Interactive : Data Lake vs Data Warehouse]
첫째, 데이터 레이크와 데이터웨어 하우스의 가장 큰 차이점은 저장되는 데이터 구조이다. 데이터웨어 하우스는 조직의 특정 목적을 위해 사용되는 데이터로 스키마로 구조화되어 저장된다.
데이터 레이크의 구조는 스키마 온 리드 (Schema on Read)라는 원칙을 기반으로 한다.
이것은 저장 전에 데이터가 일치해야 하는 사전 정의된 스키마가 없다는 것을 의미하며, 처리 중에 데이터를 읽을 경우에만 분석이 수행되고 필요에 따라 스키마에 적용된다.
일반적으로 스키마 정의에 장시간 소요되기 때문에 이러한 기능은 시간을 줄일 수 있으며, 모든 형식의 데이터를 그대로 저장하는 것도 가능하다.
데이터 과학자는 데이터 레이크를 사용하여 빠르고 정확하게 데이터에 접근하고 분석할 수 있다.
다양한 형식의 데이터를 사용할 수 있는 거대한 데이터 풀을 사용하여 데이터에 액세스하고 심리 분석과 부정 감지 등의 다양한 쓰임새에 활용 기회를 확장할 수 있다.
다양한 목적에도 신속하게 데이터를 검색하여 분석하고, AI와 머신러닝에 활용도가 높다.
둘째, 사용자 측면이다. 데이터 레이크는 정형화된 형식으로 정리되지 않기 때문에 데이터 레이크를 활용하려면 데이터 과학자와 전문 도구가 필요하다.
반면, 데이터웨어 하우스의 데이터는 차트, 스프레드 시트, 테이블 등으로 사용되며, 명확하고 문서화 된 스키마에 의해 데이터 분석가와 일반 사용자가 모두가 쉽게 사용할 수 있다.
셋째, 목적성에 따른 데이터 종류이다. 데이터 레이크의 개별 데이터의 목적은 고정되어 있지 않다.
데이터 레이크에 투입되는 원시 데이터는 향후 사용이 고려되는 경우도 일단 저장된다.
데이터웨어 하우스에 비해 데이터 레이크의 조직화와 필터링 수준이 낮다. 반면, 데이터웨어 하우스의 처리된 데이터는 조직의 특정 목적을 위해 사용되는 데이터이다.
넷째, 유용성 측면이다. 데이터 레이크는 구조를 가지지 않기 때문에, 사용하기 쉽고 변경도 용이하다.
필요한 스토리지 용량이 증가에 따라 데이터 레이크 클러스터 서버를 확장도 용이하다.
데이터웨어 하우스에서는 먼저 스키마를 정의하는 데 시간이 걸리고, 나중에 요구 사항이 변경되었을 때 스키마를 변경하는 경우에도 자원이 필요하다.
|
데이터 레이크 |
데이터웨어 하우스 |
데이터 구조 |
Schema on Read |
Schema on Write |
사용자 |
데이터 과학자 |
비즈니스 담당자 |
데이터 종류 |
대부분의 데이터 |
목적에 적합한 데이터 |
접근성과 유용성 |
용이 |
어려움 |
MR 기술이 제일 먼저 시도된 분야는 게임이다. AR 헤드셋을 머리에 쓰고 캐릭터의 시점에서 게임을 즐길 수 있도록 만든 실감나는 콘텐츠 개발에 수많은 개발사가 뛰어들고 있으며,
이러한 경험을 확장해 의료, 과학, 항공 및 우주항공, 산업기술 등 여러 분야에서 생생한 시뮬레이션 용도로 활용되고 있다. 무엇보다 AR 헤드셋 같은 체감형 디바이스의 등장이
이와 같은 MR 콘텐츠 발전에 큰 기여를 하고 있다. 재난 현장에서 로봇의 시점으로 원격조종해 실종자를 찼거나, 무인정찰기로 군사작전을 펴는 일, 탐사 드론으로 자원이나
유물을 찾는 일 등도 모두 MR 기술의 영역이기 때문이다.
데이터 레이크와 AI의 활용
[datawarehouseinfo : Data Marts, Lakes, and Warehouses – Understanding the Differences]
데이터웨어 하우스의 패턴화된 분석으로는 해결할 수 없었던 복잡한 주제에 대해 데이터 레이크에 축적된 데이터를 활용하여 데이터 과학자가 새로운 법칙을 발견하고,
AI가 비즈니스의 새로운 이익 창출의 선순환을 만들어 낼 것으로 기대되고 있다.
의료 분야에서는 구조화된 데이터(의사의 메모, 임상 데이터 등)와 실시간 지식 등 비정형 데이터를 결합 방안으로 데이터 레이크가 제기되기도 한다.
또한, 코로나 19 상황과 비대면 이슈로 교육 및 산업계에서도 데이터 레이크에 대한 관심이 집중되고 있다. 교육 데이터의 대부분은 비정형 데이터이며,
데이터 레이크의 유연성이 교육 기관에서 최대한 활용되고 있다.
예를 들면 건설 및 제조의 경우, 공장 설비 및 건물의 사진에서 균열이나 파손 등의 고장 원인을 자동 감지하여 적시에 예방을 실시하여 시설의 안전성을 확보하고,
다운 타임을 줄일 수 있다. 생산 라인 영상을 지속적으로 모니터링하여 이상현상을 자동 감지하고 제품의 결함을 조기에 발견하여 시간을 단축하고 비용을 절감할 수 있다.
교통 및 운송산업은 차량카메라의 동영상과 오픈 데이터의 정체 정보를 사용하여 택배 위치에서 가장 가까운 트럭을 배차하는 것부터 트럭의 적재량과
교통 상황 목적지까지의 거리, 연비 등을 종합적으로 고려하여, 운송 비용을 절감할 수 있다.
또한 매장에서 영상으로 입점자 수를 측정하여 점포 집객 상황에서 홍보 캠페인의 효과를 분석하고 얼굴 인증으로 고객을 식별하여 고객에게 관련성 높은 정보를
스마트 폰에 전달하고 고객의 표정을 읽고 접객 서비스의 질을 평가하고 개선할 수 있다.
데이터 늪(data swamp)
[Lore IO :Getting Rescued From the Data Swamp]
반면, 데이터 레이크 활용에 대해 아직 풀어야 할 과제도 산적해 있다.
데이터 레이크의 특징인 다양한 데이터에서 해당 데이터를 사용하고 이에 액세스할 수 있도록 거버넌스를 통해 데이터 레이크를 지속해서 유지 관리해야 한다.
데이터 레이크에 넣은 채로 방치해 버리면 결국은 사용성이 나빠져 이른바, 데이터 늪(data swamp)이 되어 버린다. 전형적인 garbage in garbage out 현상으로 결국 쓰레기만 모으는 것이 아니냐는 산업계의 우려도 높다.
이를 방지하기 위해서 데이터 레이크에 어떤 데이터가 들어 있는지, 어느 것을 신뢰할지, 원하는 데이터를 어떻게 찾으면 좋을지에 대한 데이터 거버넌스 및 데이터 보안,
데이터 품질 관리가 필요하다.
데이터의 신뢰성을 담보하기 위해서는 데이터 레이크에 넣을 때 데이터가 가지고 있는 속성(메타 데이터)를 기록하여 원하는 데이터를 신속하게 찾을 수 있는 구조가 필요하다.
데이터 원본(소스) 관련 장소, 고객 소유자 데이터의 입도, 종류, 형식 등의 메타 데이터를 분류하고 컨텍스트의 관련성에서 태그하여 데이터를 정리해야 한다.
데이터의 용도에 맞추어 설정한 데이터 품질 기준(규칙)과 비교하여 데이터 정리를 자동으로 실행하고 일관성이 없는 데이터를 검출·수정해 주는 인공지능(AI)을
탑재한 데이터 레이크 관리 솔루션이 필요하다.
이외에도 빅데이터의 대부분을 차지하는 비정형 데이터를 활용하기 위해서는 기존의 데이터웨어 하우스와 호환 및 클라우드로의 전환에 따른 데이터 환경의 변화에 대응하고
데이터 레이크 데이터 품질과 데이터 보안을 유지할 수 있는 거버넌스를 도입해 접근성을 높일 수 있는 솔루션이 필요하다.
데이터의 신뢰성을 확보하기 위한 데이터 클렌징 방법이나, 기밀 정보나 개인 정보, 데이터 유출 등 데이터 보안 솔루션도 시급하다.
데이터 레이크는 데이터를 거의 무한대로 확장 가능한 거대 저장소에 저장할 수 있다는 점에서 확실히 강점을 가지고 있다.
그러나 그 전략이 바로 기업이 미래의 분석이나 성공을 가져다주는 것은 아니다.
앞서 언급했듯이 데이터 레이크는 유용하고 관련성 높은 데이터를 제공하기 위해 조직이 필요하다.
데이터 레이크가 의도적으로 설계되고 모든 개체와 파일에 메타데이터가 있고 데이터가 밀접하게 관리될 때 데이터 레이크는 정확하고 판도를 바꾸는 비즈니스 통찰력을 제공할 수 있다.