背景
在數字化轉型的大潮中,企業對于數據的實時性需求日益增長。盡管傳統的離線數據倉庫在數據存儲和管理方面已經建立了成熟的架構體系,但其周期性的數據集成和更新策略,也往往造成用戶無法及時獲得數據變化,更無法通過處理數據變化而獲得及時的決策策略支持。
在這種模式下,數據的實時性嚴重受限于作業調度的頻率,通常只能實現每小時或每日的更新,導致數據使用者只能接觸到過時的信息,即上一小時或前一天的數據,尤其巨量的數據規模仍在按天大幅度增加的情況下,無法滿足快速變化的業務需求,嚴重制約了用戶業務發展。此外,傳統數據倉庫在數據更新時采用的分區覆寫(OVERWRITE)策略,需要首先讀取分區內的舊數據,再與新數據進行合并,最后才能生成并存儲最新的數據結果。這不僅增加了數據處理的復雜性,也推高了存儲、計算、數據運維成本,嚴重阻礙生產效率提升。

實踐方案
為了解決上述挑戰,優刻得提出了一種基于 USDP(UCloud Smart Data Platform)的流式數據湖倉解決方案。該方案以 Flink 為實時數據處理引擎,結合 Paimon 的湖存儲格式,實現了流批一體的數據管理,可有效拓展傳統數據倉庫在實時數據處理方面的局限性。
從數據源接入開始,采用 Flink MySQL CDC 連接器,以最小侵入性的方式,利用了 MySQL 的二進制日志解析技術,通過訂閱并解析 binlog 中的 DML 事件,實現對數據庫變更的低延遲感知。該連接器支持增量快照讀取(Incremental Snapshot Read),即在初始全量快照讀取后,僅同步增量變更。而在數據處理環節中,使用 Flink 作為流處理引擎,充分利用其事件驅動、精確一次(exactly-once)處理語義以及容錯機制等特性,構建一個動態的高吞吐數據流處理管道,保證了數據處理的準確性和一致性;利用 Flink 的窗口函數和聚合函數,對數據進行實時聚合計算,優化查詢性能。接入和處理后的數據采用數據湖格式進行存儲,該格式針對數據湖環境進行了特定優化,支持高效的數據檢索和快速更新,同時保持數據存儲的低成本效益。
結合業務架構和實時特性等使用需求,可按需引入其他 CDC 的數據同步工具、消息管道等服務,確保數據的實時傳遞效率,實現秒級數據統計分析;诹饔嬎憧蚣軜嫿鲾祿謱犹幚砗蛿祿鬓D,復用傳統數倉中對數據分層處理的經驗、架構和部分算子。

如何在現有的數倉架構基礎上使用新技術,避免對已有架構的顛覆性改造,并能以極低的成本進行架構演進,是用戶一直追尋的路徑。
本方案的優勢在于其對現有數據倉庫和任務流的高度兼容性,使得改造成本相對較低,允許企業通過軟件層面的優化實現向近實時數據湖倉的轉型,而無需進行大規模的硬件投資或系統重構。
以下是幾個實際改造的案例,展示了如何通過軟件層面的低成本改造,實現顯著的性能提升:
數據集成層升級:
在基于數據倉庫架構基礎上,通過集成 Flink 作為數據集成層,對接企業內各業務系統的數據源(數據庫/存儲系統),并動態處理實時產生的數據流,復用現有的數據存儲系統及設施。例如,某電商平臺在不更換數據庫的情況下,擴展并利用 Flink 捕獲實時交易數據,并直接集成到數據湖倉中,為電商業務增加了實時調度和運營策略的業務支撐。
任務流自動化改造:
基于即有數據分析架構,通過引入 Flink 的事件驅動架構,對現有的任務流進行自動化改造,減少對傳統批處理任務調度(T+1)的依賴,從天級更新提升至分鐘級數據更新。例如,某制造企業的數據分析團隊利用 Flink 替代原有的定時批處理作業,實現廠區產能數據的實時監控和分析。
存儲格式適配:
將現有的數據存儲(如 Hive 表或 Parquet 文件)適配到 Paimon 格式,在復用 Hive元數據的基礎上,對數據表進行湖表格式的改造,繼續使用 HDFS 存儲系統,不僅提高了數據讀寫效率,支持了數據更新特性,而且數據分析工作流并未進行任何調整。例如,某物流公司在保留現有存儲硬件的基礎上,將訂單數據遷移到 Paimon 格式,以支持更快速的查詢和分析。
CDC 技術集成:
利用 Flink CDC Connectors,在不改變現有數據庫架構的前提下,實時捕獲數據庫的變更數據變化,并實時進行數據統計與聚合。例如,某金融機構在不修改數據庫配置的情況下,實時同步交易流水數據到數據湖倉,進而擴展實現了實時風控分析管理能力。
查詢性能優化:
通過將 Paimon 作為數據湖存儲格式,可以在不更換現有查詢引擎的情況下,提升數據查詢性能。例如,一個在線廣告平臺可以在保留現有查詢工具的基礎上,通過 Paimon 快速響應廣告投放效果的實時分析需求。
現實中,企業往往受限于現有技術架構的固化約束,以及海量的數據分析任務改造成本壓力,通過上面的客戶改造案例,不難看出,本方案的改造成本相對還是較低的,主要因為方案依賴于分析業務軟件架構的擴展升級和優化,并不對硬件投資或對架構的大規模重構。這種以軟件升級為核心的改造策略,不僅經濟高效,而且能夠快速實現,幫助企業迅速對近實時數據處理的能力拓展,進一步夯實現有系統的穩定性和可靠性。
方案優勢

站在企業數據處理未來的角度,優刻得推出的流式數據湖倉解決方案,不僅提供實時數據處理所需的高效性和靈活性,還確保了數據存儲的經濟性和可擴展性。借助 Flink 和 Paimon 以及其他流批一體相關生態等先進技術,企業可以實現從數據攝取、處理到存儲和分析的全流程自動化,大幅提高決策效率。這套方案,不僅是一次技術上的突破,更是一次業務上的飛躍,它將助力企業把握每一個數據驅動的機會,是企業構建高效、靈活數據湖倉的理想選擇。
以下是該方案的關鍵優勢:
實時性與低延遲查詢:
實現秒級數據變更傳遞,將傳統數據倉庫的延時從數小時甚至數天縮短至分鐘級,為決策者提供了即時的數據洞察和決策支撐。
高效的數據更新與維護:
Paimon 的 LSM 樹與增量數據機制,確保大數據量更新的同時快速響應更新,Upsert 操作極大的簡化了復雜低效的數據覆寫操作。
簡化的數據處理流程:
利用 Flink SQL 實現 ETL 流程,簡化了數據處理的復雜性。ODS、DWD 和 DWS 層的數據統一存儲于 Paimon 中,減少了數據流轉的復雜性,提升了數據處理的效率。
靈活的數據合并策略:
數據湖 Paimon 靈活的數據合并機制,包括去重、部分更新和預聚合等策略,允許用戶通過 merge-engine 參數進行靈活配置,根據應用場景精確控制數據合并行為。
全面的增量數據生成:
通過配置參數優化和調整,為各種輸入數據流定制合適的增量數據處理策略。無論是對歷史數據不敏感的系統,還是需要快速響應數據變化的應用,或是對數據延遲更新容忍度較高的場景。
優化的數據湖存儲:
數據湖存儲格式,支持主流且豐富的開源引擎,如 Flink、Spark、StarRocks、Doris 和 Trino 等,實現數據湖與數據倉庫的無縫集成。
高效的數據同步與查詢:
利用 Flink CDC 和 Paimon 的變更日志流讀功能,實現數據庫的實時同步和增量快照,為實時分析和批式分析提供了強大的支持。
實踐場景
本實踐案例以一家電商平臺為背景,通過建立流式數據湖倉,成功實現了數據的高效處理和清洗,并提供了數據查詢服務,助力電商平臺實現數據的即時處理與深度洞察。利用 Flink MySQL CDC 技術,從 MySQL 中實時捕獲數據流,借助 Flink 和 Spark 強大的流數據處理能力,對收集到的數據進行快速清洗與分析,從而在訂單管理、庫存監控、用戶行為分析、實時定價、市場動態監測、廣告投放優化等多個業務場景中取得顯著成效,確保實時數據價值能夠在關鍵時刻發揮其作用。這不僅提升了用戶體驗,還增強了市場響應速度,為電商平臺的智能化轉型提供了堅實基礎。通過該技術的落地實踐,推動電商平臺以數據驅動決策,實現個性化推薦,優化營銷策略,最終推動業務增長。
該場景支持復用傳統數倉的數據分層架構,滿足了業務報表查詢(如交易監控、用戶行為分析、用戶標簽畫像)和個性化推薦等多種應用需求。以 HDFS 或以及新型高性能對象存儲為基礎構建數據湖,統一數據資源庫。結合元數據管理工具,為整套平臺提供數據質量和一致性保障,準確性大幅提升。
本實踐案例通過 USDP 大數據平臺獲得一站式環境承載:
●StreamPark-2.1.3
●Flink-1.16.3
●Paimon-0.7.0
●StarRocks-3.2.3
場景設計
本場景包含以下幾個部分組成:

1、數據源端:通過 StreamPark 開發平臺執行 Flink DataGen 任務以產生業務模擬數據。
首先,創建名為 `order_db` 的電商訂單的 MySQL 數據庫,并在其中構建三個電商業務表:訂單表(orders)、訂單支付表(orders_pay)和商品類別表(product_catalog),隨后使用 Flink DataGen 工具模擬用戶生成各表數據,并將這些數據存儲到 MySQL 數據庫中。
在MySQL創建數據庫和表:

用Flink SQL生成商品數據:

用Flink SQL任務生成訂單數據:



2、構建ODS層:利用 Flink 的實時處理能力,將 MySQL 中的訂單表、訂單支付表和商品類別表實時同步到 HDFS 上,并采用 Paimon 格式存儲,形成操作數據存儲(ODS)層。使用 paimon-flink-action 執行整庫數據同步。

該數據同步方式,首先對該庫中的表數據執行全量同步,并持續監聽源端數據庫,當有新數據產生時,對新數據變化進行實時且增量地同步到目標庫表。
3、構建DWD層主題寬表:在這個過程中,利用 Paimon 的部分數據更新機制,通過 Flink SQL 任務將訂單表(orders)、商品類別表(product_catalog)和訂單支付表(orders_pay)合并成主題寬表,形成 DWD 明細數據層。
具體操作則是通過維度表關聯將訂單表與商品類別表合并,并將結果與訂單支付表結合,最終寫入訂單主題寬表(dwd_orders)。Paimon 的部分更新機制允許根據 order_id 更新 orders 和 orders_pay 表的數據,實現數據的擴寬。這個過程實時生成 DWD 層的寬表,并輸出數據變更記錄(Changelog)。


4、構建DWM層:通過 Flink SQL 作業,將 dwd_orders 表的數據遷移至 dwm_users_shops 表。同時,利用 Paimon 的預聚合機制對 order_fee 字段進行求和,以計算每位用戶在各個商戶的總消費額。此外,通過對常數 1 進行求和,用來統計用戶在各個商戶的消費次數。

5、構建DWS層:在構建數據倉庫服務層(DWS)的過程中,將使用 Flink 處理寬表的實時數據變更,并利用 Paimon 的預聚合功能來生成用戶-商戶聚合中間表(dwm_users_shops)。
Flink SQL 作業會將 dwm_users_shops 表中的數據匯總到 dws_users 表。通過 Paimon 的預聚合合并機制,對 payed_buy_fee_sum 字段進行求和,以計算每一位用戶的總消費額。同時,數據也會被匯總到 dws_shops 表,并繼續對 payed_buy_fee_sum 字段求和,得出商戶的總流水。此外,還會統計支付購買費用的用戶數量(通過字段 1 求和)以及總消費人次數(通過 pv 字段求和)。這一數據處理體系為電商平臺的業務決策提供了堅實的數據基礎。


跟蹤業務數據的變化
在電商平臺的業務運營中,數據的實時性和準確性對于業務決策至關重要的。通過構建流式數據湖倉,實現對數據架構的能力提升,降低數據處理成本的同時提升了數據處理效率。批流融合的技術應用,極大的提升了數據的實時價值挖掘效率,為業務增長提供了強有力的數據支撐。
通過對用戶消費行為分析和實時用戶付費數據,結合用戶興趣點及周期性購買需求,平臺可以構建用戶消費行為模型,持續預測用戶未來消費趨勢,實現精準營銷。通過實時銷售數據使商戶能夠及時調整銷售策略,進而調整促銷活動、庫存分配及供應鏈優化。通過結合訂單明細和商品銷售數據,優化商品推薦系統,實現精準的商品推薦,提升用戶購買意愿、復購意愿,實現平臺銷售額的大幅提升。借助與實時數據分析技術能力,幫助平臺快速捕捉市場動態,提升大促活動中用戶消費額度,并結合節日促銷、季節性商品需求變化等,及時調整營銷計劃。這些實時統計和深入分析技術,幫助電商平臺能夠實現數據驅動的決策,實現業務增長和利潤最大化。
如下數據查詢場景中,通過使用 Flink SQL 或者其他查詢引擎(例如 Hive、StarRocks、Trino)查看用戶付費、店鋪銷售額度統計、商品排名、訂單明細、數據報表等業務數據的變化。
用戶付費情況實時查詢

實時關注用戶單日消費額度變化,為個性化營銷活動提供數據支持。通過實時數據分析,平臺能夠及時發現并響應用戶消費行為的變化,實現動態定價、優惠推送、精準推薦。

商戶銷售情況明細實時查詢

實時洞察各商鋪銷售額變化以及活躍用戶數、購買人次等關鍵指標,結合這些數據,可進一步分析已消費用戶群體、以及與這些商品相關的購買人群特征,為商戶管理提供決策支持。利用實時銷售數據,商戶可以優化商品推薦邏輯,快速調整庫存和營銷策略,優化銷售模式,提升銷售業績。

商戶銷售額排名分析

通過關注 Top 級商戶在特定日期的銷售額等數據,深入分析其成功因素。結合分析排名,進一步探索這些商戶的用戶特征和購買行為,為精準營銷和商品推薦提供依據。

訂單明細深入分析

深入分析訂單明細,以及特定支付平臺的用戶訂單行為,為支付渠道優化提供數據支持。進一步了解用戶消費偏好,為產品推薦算法提供輸入,提升用戶滿意度和忠誠度。

商品數據綜合報表

按商品各品類的訂單總量和總金額統計報表,為商品管理和采購決策提供數據支持。結合報表數據,分析商品銷售趨勢,預測市場動向,為新品開發和庫存管理提供科學依據。

總結
對于電商平臺而言,實時數據的處理和分析關乎用戶體驗、銷售業績和市場競爭力。本案例以一家領先的電商平臺為例子,展示了如何通過實踐流式數據湖倉解決方案,將實時數據價值轉化為業務增長引擎。而在傳統數據倉庫模式下,數據更新周期長,無法滿足快速變化的業務需求。該電商平臺面臨的挑戰是如何在保證數據準確性的同時,實現數據的實時處理和分析。

為此,該電商平臺客戶引入了優刻得智能大數據平臺 USDP,通過 USDP 一站式承載數據倉庫業務的同時,擴展實踐基于 Flink 實時數據處理引擎和 Paimon 數據湖倉解決方案,成功實現了實時訂單處理,顯著提升了客戶滿意度和訂單處理效率。同時,實時數據流的應用使得庫存管理更加精準,有效預防了超賣,并優化了庫存周轉率和供應鏈優化。圍繞用戶深入分析購買行為,抓住用戶瀏覽瞬間,通過精準商品推薦,促進用戶下單。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。