資料湖和資料倉儲有什麼差異?兩者如何結合應用?

FAQ6: 「資料湖跟資料倉儲的差別是什麼?」
在上次的部落格中 <<不了解什麼是資料湖及資料倉儲?這篇你不能錯過!>> 分別介紹了資料湖跟資料倉儲,相信大家一定會很好奇「這兩者的差別是什麼」?
資料湖跟資料倉儲皆廣泛用於存儲大數據,但最大的差別是資料湖可以存儲所有原始資料,但資料倉儲則僅能存儲結構化資料,在存儲費用上資料倉儲相對較高。 此外,在存放的目的上也有所不同。
1. 資料湖:通常沒有明確目的的資料會先存放於此。(比如:我不確定這些資料未來會怎麼被使用,但我需要一個空間先存放這些資料)。
2. 資料倉儲:有明確目的的資料則會存放於此。(我確定這些資料未來將會做什麼樣的分析,進而連接 BI 工具)。
關於這兩者的差別,我們整理了下面這張圖讓大家一次看明白。

FAQ7: 「資料湖跟資料倉儲究竟會怎麼結合?」
了解資料湖跟資料倉儲後,現在來探討這兩者究竟會怎麼結合呢?
我們試想一個情境,一位數據分析師蒐集公司各部門資料,他選擇先把這些海量資料存放於資料湖方便未來做分析,因為資料湖最大特色是能存放各種原始數據。 過了三天,他收到業務經理的任務,想要了解業務拜訪客戶次數是否與業績有關,所以他從資料湖抓出相關資料,放到資料倉儲並連接 BI 工具即時進行分析。 年底時,業務經理想預測明年的業績表現,於是數據分析師到資料湖抓相關的原始資料,進行 AI/ML 預測分析。
綜合以上,結合資料湖跟資料倉儲能做現有資料分析,若想做預測分析時直接從資料湖抓取原始資料並連結 AI/ML 工具即可完成。 這樣做完全結合了資料湖跟資料倉儲的最大好處,不僅能降低存儲成本,更能改變公司從數據中獲取價值的方式。

2020-06-17T18:20:19+00:00 2020/06/17 |商業洞悉, 雲講堂|