Mike Chen | 內容策略師 | 2022 年 3 月 1 日
資料湖倉 (data lakehouse) 可被定義為結合資料湖 (data lake) 與資料倉儲 (data warehouse) 所打造的現代化資料平台。更明確地說,資料湖倉結合了資料湖在儲存非結構化資料上的高彈性,以及資料倉儲的管理功能與分析工具,並將兩者策略性整合為一個更完善的系統。這樣的融合讓使用者同時享有兩者的優勢。若要更深入瞭解資料湖倉的概念,首先必須充分掌握「資料湖」與「資料倉儲」這兩個基礎概念的定義。
當我們談到「資料湖倉」時,指的是將現有的各種資料儲存平台加以整合運用的概念。
那麼,資料湖倉是如何結合這兩種概念的呢?整體而言,資料湖倉打破了資料湖與資料倉儲之間的隔閡。這意味著資料可以在低成本且具高彈性的資料湖與資料倉儲之間自由流動。如此一來,使用者能輕鬆運用資料倉儲的管理工具,建立資料結構與治理機制,同時透過機器學習與人工智慧技術進行資料清理。最終,資料湖倉形成一個兼具資料湖「經濟、彈性」與資料倉儲「穩定、結構化」特性的資料儲存體系。資料湖倉讓企業能在彙整多樣資料來源的同時,運用工具將資料轉化為可供業務應用的洞察,大幅加速資料處理流程。從某種角度來看,資料湖倉可被視為誕生於 1980 年代初期的「資料倉儲」的概念,在現今以資料驅動的時代中重新進化的版本。
在瞭解資料湖倉的基本概念後,我們可以更深入探討其核心要素。資料湖倉結合了傳統資料湖與資料倉儲的特性,並以全新方式融合兩者的優勢,打造出更適合現代數位時代需求的資料平台。
資料倉儲通常具備多種資料管理功能,如資料清理、資料擷取/載入/轉換 (ETL) 以及資料結構規範。這些功能被引入資料湖倉中,用於加速資料準備流程,使來自不同來源的精選資料能自然整合、協同運作,並為進一步的分析與商業智慧 (BI) 應用做好準備。
採用開放且標準化的儲存格式,能讓來自不同來源的精選資料更容易整合與協作,並能更快速地投入分析與報表製作之中。
透過將運算資源與儲存資源分離,資料湖倉能依需求彈性擴充儲存容量。
許多資料來源會直接從裝置端以即時串流的方式傳送資料。資料湖倉相較於傳統資料倉儲,更能有效支援這類即時資料擷取。隨著物聯網裝置日益普及,即時資料處理的能力也變得愈加關鍵。
由於資料湖倉整合了資料倉儲與資料湖的功能,因此能靈活支援多種工作負載。無論是商業報表製作、資料科學分析,或分析工具應用,資料湖倉都能在同一平台中滿足組織內不同工作負載的需求。
透過建置資料湖倉,組織能以統一的資料平台簡化整體資料管理流程。資料湖倉可取代多個單獨的解決方案,打破不同資料儲存庫之間的孤島,實現資料的整合與協作。這種整合使精選資料的端到端處理流程更加高效,並帶來多項顯著效益。
部分組織會自行建置資料湖倉,也有組織會選購資料湖倉雲端服務。
Experian 將關鍵資料工作負載從其他雲端平台移轉至 OCI 的資料湖倉後,效能提升了 40%,成本降低了 60%。這不僅加快了資料處理與產品創新,也擴大了全球的信貸機會。
Generali Group 是一家義大利保險公司,擁有全球最大的客戶群之一。Generali 擁有大量資料來源,包括 Oracle Cloud HCM 和其他本地與區域來源。他們的人力資源決策流程和員工投入度面臨障礙,而該公司尋求改善效率的解決方案。將 Oracle Autonomous Data Warehouse 與 Generali 的資料來源整合、移除孤島,並為所有 HR 分析建立單一資源。這提升了 HR 員工的效率與生產力,使他們能將精力集中在具附加價值的工作上,而非耗費在大量報表生成的流程中。
作為世界頂尖的拼車服務供應商之一,Lyft 正在處理 30 個不同的孤立財務系統。此孤立系統阻礙了公司的發展並減慢了流程。藉由將 Oracle Cloud ERP 及 Oracle Cloud EPM 與 Oracle Autonomous Data Warehouse 整合,Lyft 能夠將財務、運營及分析整合至單一系統。這將結算時間縮短了 50%,並有可能進一步簡化流程。這也透過減少閒置時數來節省成本。
Agroscout 是一家軟體開發商,致力於協助農民提升農作物的健康與安全。為了增加糧食產量,Agroscout 使用無人機網絡對農作物進行巡查,檢測蟲害或疾病。該企業需要一個高效率的方法來整合並處理這些資料,以便及時識別農作物的危險跡象。透過 Oracle Object Storage Data Lake,無人機能將農作物影像直接上傳;接著使用 OCI Data Science 建立機器學習模型來處理影像。最終,整個流程大幅改善,使農民能快速反應,有效提升糧食產量。
越來越多的資料來源在全球範圍內傳送大量資料。對於任何組織而言,這種結構化和非結構化資料的組合仍然是一項挑戰。資料湖倉能將這些多樣化的資料整合、關聯與分析,匯聚成單一且易於管理的系統。