클라우드 스토리지 솔루션에는 데이터 웨어하우스, 데이터 레이크, 데이터 마트 등이 있다.
데이터 웨어하우스는 데이터를 구조화된 형식으로 저장한다. 데이터를 저장하기 전에 쓰기 스키마(schema on write)를 통해 데이터에 어떤 형태와 구조를 부여하고, 이를 데이터 웨어하우스에 저장하는 것이다. 즉, 분석 및 비즈니스 인텔리전스를 위한 사전 처리된 데이터의 중앙 리포지토리이다.
데이터 마트는 회사의 금융, 마케팅 또는 영업 부서와 같은 특정 사업부의 요구 사항을 지원하는 데이터 웨어하우스이다. 즉, 조직의 사업부와 관련된 정보를 포함하는 데이터 스토리지 시스템인 것이다. 이를 통해 기업은 부서별 정보를 보다 효율적으로 분석하는 것이다. 예를 들어, 회사는 공급업체 정보, 주문, 센서 데이터, 직원 정보 및 재무 레코드와 같은 다양한 소스의 데이터를 데이터 웨어하우스 또는 데이터 레이크에 저장할 수 있다. 그러나 소셜 미디어 리뷰 및 고객 레코드와 같은 마케팅 부서와 관련된 정보는 데이터 마트에 저장하는 것이다.
데이터 레이크는 원시 데이터의 중앙 리포지토리다. 정형, 반정형, 비정형 데이터 등 온갖 유형의 원시 데이터를 저장하는 등 빅데이터를 관리하는 데 최적화되어 있다. 이는 데이터 웨어하우스와는 반대로 먼저 데이터를 저장하고 나중에 처리할 수 있다는 특징이 있다. 즉, 먼저 원시 형태의 데이터를 저장한 뒤, 읽기 스키마(schema on read)를 통해 이를 사용할 때 데이터에 형태와 구조를 부여한다.
이러한 스토리지 솔루션은 유사한 부분이 있다. 모두 데이터의 가용성, 신뢰성 및 보안을 강화하는 데 도움을 주는 것이다. 분석을 위해 비즈니스 데이터를 안전하게 저장하거나, 필요한 만큼 무제한으로 데이터 볼륨을 저장하거나, 또 여러 비즈니스 프로세스의 데이터를 통합하여 사일로를 해소하는 등으로 활용할 수 있다. 세 가지 솔루션 모두 비용 효율적이다. 이를 통해 패턴과 추세를 분석하고 정보를 사용하여 비즈니스 운영을 최적화할 수 있다.
/여기서 데이터 사일로란, 데이터가 격리되어 특정 조직, 부서, 단위에서만 정보 접근 및 공유가 가능하여 다른 조직, 부서, 단위에서는 데이터가 격리되는 현상을 말한다. 하나의 정보 시스템이나 하위 시스템이 다른 관련 시스템과 상호 간의 운영을 할 수 없는 배타적인 관리 체제를 말하는 것이다. 이로 인해 정보는 적절히 공유되지 않고 각 시스템이나 하위 시스템에 격리되며, 마치 곡물이 사일로(저장탑) 안에 갇히는 것처럼 컨테이너 안에 갇힌 것 같다하여 이렇게 비유된다. /
오늘날에는 데이터 레이크가크게 떠오르고 있다. IT 기술의 발전으로 스마트폰, IoT, SNS 등을 통해 방대한 데이터가 생성되기에 이를 효율적으로 관리할 플랫폼이 필요했고, 그 수단으로 데이터 레이크가 대두된 것이다. 다양한 플랫폼에서 다양한 데이터가 생성되기에 이를 한 곳에 저장해 간단하고 효율적으로 관리하기 위해 데이터 레이크를 선택한 것이다.
또한 데이터 레이크는 기업이 다양한 데이터 소스를 토대로 의사결정 내리는 데 도움이 된다. 기업에서 저장하는 데이터의 약 80~90%는 비정형 데이터라고 한다. 데이터 웨어하우스에 저장된 정형 데이터 뿐만 아니라, 데이터 레이크에 저장된 정형, 반정형, 비정형 데이터 소스를 통해 기업의 의사결정을 뒷받침할 수 있는 것이다.
더욱이 데이터 레이크는 데이터 사일로 문제를 해소할 수 있는 방안으로 볼 수도 있다. 부서별, 분야별로 흩어진 데이터를 한데 모아 조직에서 시너지를 강화할 수 있는 것이다. 전사 수준으로 데이터 접근성을 높이고, 이를 이해하는 것에도 도움을 준다.
이와 비교되는 데이터 웨어하우스보다 경제적이라는 것도 장점 중의 하나이다. 데이터 레이크를 도입할 때 데이터 셋을 인덱스하거나 저장소를 위해 이를 준비할 필요가 없기 때문이다.
마지막으로 데이터 레이크는 큰 비용을 들이지 않고 쿼리 속도를 높일 수 있다. 데이터 웨어하우스는 고비용 스토리지를 사용해야 가장 빠른 쿼리 결과를 얻을 수 있지만, 데이터 레이크는 저비용 스토리지를 사용해도 쿼리 결과가 점점 더 빨리 나올 수 있다.
이러한 장점에도 불구하고 데이터 레이크의 한계 또한 존재한다.
잘못 관리한 데이터 레이크는 데이터 늪이 될 수 있다. 가트너에 따르면 '서술적 메타데이터'와 이를 관리하는 매커니즘이 없으면 데이터 레이크가 데이터 늪이 된다고 한다. 저장된 데이터가 어디서 온 건지, 어떤 데이턴지 모르는 상황에 빠져 이를 제대로 활용할 수 없는 것이다.
보안과 액세스 제어 문제 또한 존재한다. 데이터 레이크에서는 내용을 감독하지 않고 데이터를 저장할 수 있다. 이로 인해 프라이버시와 규제 요건 상의 위험 노출 문제가 제기될 수 있다. 데이터 레이크 기술의 보안 기능은 아직 초기 단계이기에 제대로 보안을 지키고 관리하기 힘들다. 이를 위해 보안과 액세스 제어에 주의해야 한다.
마지막으로 데이터 레이크의 성능이 저하될 수 있다. 데이터 레이크 안에 저장된 데이터 규모가 커질수록 전통 쿼리 엔진 성능이 저한된다고 데이터브릭스는 말한다. 클라우드 저장소를 사용하는 현대 데이터 레이크에서는 삭제된 파일이 최대 한 달 동안 남을 수 있기에 이 또한 쿼리 성능을 저하하는 요인이 될 수 있다.
이러한 단점을 가지고 있기에 데이터 레이크가 '만능'은 아닌 것이다.
데이터 레이크와 데이터 웨어하우스, 데이터 마트는 각각의 특장점이 존재하고 한계 또한 존재한다. 어떤 것이 다른 것들을 완전히 대체할 수 있다고 말할 수 없는 것이다. 기술이 발전함에 따라 데이터 레이크와 데이터 웨어하우스의 경계가 흐려질 것이라는 전망도 있지만 아직까지는 세가지 솔루션을 상황에 따라 적절히 적용하는 경우가 많다.
물론 현재 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 플랫폼인 데이터 레이크하우스도 등장하고 있기에 기술의 발전에 따라 세가지 솔루션을 보완하고 대체할 새로운 플랫폼이 등장할 수 있는 것이다.
참고 문헌
빅데이터로 가치를 만드는 호수 ‘데이터 레이크’ 이야기 | 인사이트리포트 | 삼성SDS (samsungsds.com)
데이터 레이크, 데이터 웨어하우스, 데이터 마트 비교 - 클라우드 스토리지 솔루션 간의 차이점 - AWS (amazon.com)
정보 사일로 - 위키백과, 우리 모두의 백과사전 (wikipedia.org)
조직 내 단절을 유발하는 데이터 사일로(Data Silo) – BizSpring BLOG
'이론 > IT' 카테고리의 다른 글
RESTful API (2) | 2023.11.22 |
---|---|
REST (0) | 2023.11.21 |
클라우드 보안 (0) | 2023.11.12 |
소프트웨어 개발 수명 주기 방법론 (0) | 2023.11.11 |
프로비저닝 (0) | 2023.11.11 |