上海 AI 實驗室聯合語料數據聯盟成員共同開源發布了高質量多模態預訓練語料 “書生・萬卷”1.0。
據悉,這個語料庫包含了文本數據集、圖文數據集和視頻數據集,總量超過2TB。其中包括超過5億個文本、2200萬個圖文交錯文檔和1000個節目影像視頻。
這些數據經過細粒度清洗、去重和價值對齊等處理,具備多元融合、精細處理、價值對齊和易用高效的特點。
上海 AI 實驗室表示,開源發布 “書生・萬卷” 有助于降低大模型技術的門檻,推動大模型的應用和創新。該語料數據聯盟旨在通過聯合多方機構打造高質量的語料數據,探索形成可持續運行的激勵機制,打造國際化、開放型的大模型語料數據生態圈。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。