近期,火山引擎開發者社區、火山引擎數智平臺(VeDI)聯合舉辦《數智化轉型背景下的火山引擎大數據技術揭秘》為主題的線下Meeup,活動主要從數據分析、數據治理、研發提效等角度,帶領數據領域從業者全面了解數智化轉型背景下,火山引擎數據飛輪模式在數據資產建設上的技術與實踐。火山引擎ByteHouse產品專家在本次活動中作了《基于ByteHouse引擎的增強型數據導入技術實踐》的主題分享,介紹ByteHouse數據導入能力升級情況。
作為企業數字化建設的必備要素,易用的數據引擎能幫助企業提升數據使用效率,更好提升數據應用價值,夯實數字化建設基礎。數據導入是衡量OLAP引擎性能及易用性的重要標準之一,高效的數據導入能力能夠加速數據實時處理和分析的效率。作為一款OLAP引擎,火山引擎云原生數據倉庫ByteHouse源于開源ClickHouse,在字節跳動內部多年打磨下,提供更豐富的能力和更強性能,能為用戶帶來極速分析體驗,支撐實時數據分析和海量離線數據分析,具備便捷的彈性擴縮容能力,極致的分析性能和豐富的企業級特性。
隨著ByteHouse內外部用戶規模不斷擴大, 越來越多用戶對數據導入提出更高的要求,這也為ByteHouse的數據導入能力帶來了更大的挑戰。
從字節跳動內部來看,ByteHouse主要以Kafka為實時導入的主要數據源。對于大部分內部用戶而言,其數據體量偏大,用戶更看重數據導入的性能、服務的穩定性以及導入能力的可擴展性。在數據延時性方面,用戶的需求一般為秒級左右。
據火山引擎ByteHouse產品專家的介紹,基于以上場景和需求,ByteHouse首先基于ClickHouse引擎進行升級,其次又針對數據導入能力進行一系列定制性優化,主要包括兩個方面,第一為MaterializedMySQL增強;第二個是HaKafka 引擎。

在引擎優化方面,在TB級數據量級下,ClickHouse容易出現集群故障,還存在讀性能較低、耗損內存的問題。針對這些痛點,ByteHouse自研的HaMergeTree和HaUniqueMergeTree可以降低負載,確保集群在單節點故障下能平穩運行服務,還能平衡讀寫性能,保障讀取時性能一致。
在數據導入能力的定制化優化方面,社區版MaterializedMySQL 不支持分布式表等功能,也存在無法定位問題、無法同步狀態等運維問題。一方面,通過構建分布式模式的MaterializedMySQL庫,用戶可將每個表都對應同步至ByteHouse的一個分布式表,讓數據不重復存儲,充分利用分布式集群的計算能力,又降低了對源端的同步壓力。另一方面,ByteHouse也提供可視化運維的功能,支持同步狀態和任務管理,一旦出現系統運維故障,用戶會收到異常警告。
而HaKafka 引擎則是ByteHouse 推出的一種特殊的表引擎,主要基于 ClickHouse 社區的 Kafka engine 進行了優化。用戶可以通過一個Kafka消費表、分布式存儲表、物化視圖表,三元組實現數據消費、數據轉換、數據寫入功能。

目前,以上能力已經在短視頻、營銷實時數據監控、游戲廣告數據分析等領域落地。以營銷實時數據監控為例,在字節跳動內部,活動運營人員需要對營銷活動效果進行實時監控,以便通過實時獎勵發放來動態調整獎勵流量分配,提升ROI收益。這類場景要求數據實時寫入,對系統性能具備高要求 。另外,為保障獎勵不會發放錯誤,系統也需要保證數據在傳輸和落盤時都不丟失、不重復,且穩定運行。
火山引擎ByteHouse基于自研HaKafka引擎,能支持流式數據實時入庫, 用自研事務保障機制,確保數據精準一次傳輸,最后通過自研Unique引擎實現數據實時寫入實時去重。在效果上,ByteHouse可以實現實時寫入、實時分析30MB/s/node,活動運營人員可以根據不同用戶群實時發放獎勵,做到秒級延遲、秒級監控。(作者:任瓊)
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。