成功的企業都需要數據湖

數據湖是數據倉庫的2.0版本嗎?

對於數據湖,有人會錯誤地認為它是數據倉庫的2.0版。數據湖可以將組織中所有數據進行集中存儲,雖然這與數據倉庫的概念幾乎相同,但它們卻是用於不同目的的工具。數據湖與數據倉庫的對比如表 1 所示。

表1. 數據湖與數據倉庫的對比

  數據湖 數據倉庫
數據 儲存一切 只專註於業務流程
成本 低成本存儲 低成本存儲
數據類型 非結構化、半結構化和結構化 主要是結構化和表格形式
優勢 可擴展的存儲 高效能
敏捷 高度敏捷,可根據需要進行預配置和重新配置 敏捷性較低,並且配置是固定的
使用者 數據科學家、專家 廣泛被商業用戶使用
應用場景 機器學習、預測分析、數據挖掘等 批次報表、商業智能以及可視化報表等

數據倉庫是收集和存儲大量數據的傳統方式。 它是高度結構化的, 這種高度結構化的方法意味著它可以快速解決一系列非常具體的問題。 但它的數據不是以原始格式存儲的,這意味著數據難以訪問,只有 IT 專業人員才能使用它。 另外,使用數據倉庫來進行計算和存儲,其價格也是非常昂貴的。

不同的使用者、不同的數據使用方式

對於存儲在數據倉庫中的數據,即使僅使用一次,也必須完整統一的存儲在表中。其實,儲存在數據倉庫中更多的是已經處理過的數據,使用目的多以 BI 應用程式或是商業用途的使用為主。有些數據是無法儲存到數據倉庫的,比如半結構化和非結構化數據是無法儲存在數據倉庫中的。不僅如此,有很多數據可能需要很長時間才能將其加載到數據倉庫中,並且都需要經過一系列的數據處理的過程方能使用。

數據湖由於沒有特定的儲存結構或格式,讓使用者更方便儲存原始的數據資料,並且可以滿足整個企業使用者的需求。技術人員可以從數據湖獲得他們最大的價值,因為數據湖沒有要求預定義的架構使數據湖的使用上變得更加靈活。

“數據湖”稱謂的由來

2010年10月,James Dixon 提出了“數據湖”一詞。為什麽將其命名為數據湖,他用了以下比喻:

“如果數據集市是一個商店的瓶裝水,經過過濾包裝和結構化以供使用——數據湖則是在更自然狀態下的大量的水。數據湖中的數據來源於不同地方,用戶可以進入數據湖中提取所需要的數據”

按照人們目前的速度,每天可以創建 2.5 億個字節的數據。在這個數據快速增長的時代,有許多不同類型的數據,比如結構化數據(RDMS 表、列式等)、半結構化數據(JSON、CSV 文件、XML 等)和非結構化數據(視頻文件、圖像、電子郵件等)。數據湖就像一個大容器包含了從不同地方進入的各種類型的數據,這就類似於真實湖泊的很多支流會從不同方向流入湖中。

數據湖的特征

數據湖的最大優勢是靈活性。通過將數據保留其原始格式,以便進行更龐大、更及時的數據分析。 數據湖具有三個關鍵屬性:

1.數據湖可以儲存各式各樣的數據

存儲在湖泊中的數據可以是任何格式的,既可以原始數據,也可以是處理後的數據。包括非結構化的數據(例如文本文檔或圖像)、半結構化的數據(例如分層的 Web 內容)以及結構化的數據。

2. 數據湖可以跨部門使用

數據湖可跨多個部門並根據個人的需求進行數據搜尋和使用。

3.數據湖靈活性高

數據湖使數據能夠進行共享及使用方便,其中包括批次處理、交互式、搜索、內存儲和其他待處理項目等。

數據湖的好處

數據湖最適合數據需求大及數據需跨多個不同的部門的企業使用。數據湖的好處如下所示:

1. 單一數據源

所有企業單位都可以將其原始數據存儲在數據湖中,數據不需通過預先的數據處理過程。因為這樣,每個人都可以通過數據湖獲得最真實的數據。

2.即時的決策分析

數據湖的巨大處理能力,使用者可以確保數據的高質量,以進行實時決策分析。

3.數據民主化

數據民主化意味著每個人都可以訪問數據。數據湖使數據可被整個組織使用。如果每個使用者都具有適當的使用權限,便可訪問該數據。

即使數據湖能夠給企業、數據經理和數據使用者帶來許多的好處。但依然有許多的組織和企業沒有意識到數據湖所帶來的強大重要性和優勢,也不知如何利用數據湖有效地進行數據處理,為公司創造更多的機會和商業價值。

 

Reference:
1. Amber Lee (2016). Data Lakes 101: An Overview. Dataversity.
2. Christine Taylor (2018). Structured vs. Unstructured Data. Datamation.
3. Keith D. Foote (2018). A Brief History of Data Lakes. Dataversity.
4. Phil Simon. Data Lake and Data Warehouse – Know the Difference. SAS.
5. What is Data Lake? It’s Architecture. Guru99.

2020-01-30T14:03:44+00:00 2020/01/09 |商業洞悉, 雲講堂|