9月9日,掘力計劃第 23 期線上技術沙龍邀請到吳碧珠博士做客,為大家帶來題為《Linly Chinese LLaMA-2中文開源大模型方案分享》的演講,吳博士是寧波諾丁漢大學和深圳大學聯合培養的在讀博士生,主要從事自監督學習、基于人體骨架點視頻序列的動作識別和大語言模型方面的研究,師從深圳大學計算機學院沈琳琳教授。本次分享吳博士詳細介紹了沈琳琳教授團隊自主研發的Linly系列中文開源大模型的技術方案,包括項目背景、模型架構、訓練數據以及模型應用等方面。

直播回放地址:https://juejin.cn/live/jpowermeetup23
近年來,以 ChatGPT 為代表的大規模預訓練語言模型獲得了廣泛的關注。這類模型依賴大量文本訓練,可以完成閱讀理解、文本生成等多種自然語言處理任務。但目前許多流行的大規模語言模型,例如 LLaMA、Falcon 等,其訓練數據以英文為主,直接應用于中文場景的效果并不理想。為此,深圳大學沈琳琳教授團隊發起了 Linly 項目,目標是基于英文底座模型,通過大規模中英文增量訓練對齊模型的跨語言表示,將語言能力遷移到中文上來獲得性能強大的中文預訓練模型。
Linly 項目基于 TencentPretrain 框架完成模型訓練,該框架模塊化實現了主流模型架構,支持快速迭代不同規模的模型。目前 Linly 已在 GitHub 開源了不同模型架構、不同參數量級、不同序列長度的中文大模型,代碼庫的周訪問量達萬級,stars 近 3000,影響力日益擴大。這些模型直接在主流大模型基礎之上,擴充了中文詞匯表,并增加中文訓練數據來進行中文化適配。相比起直接將國外主流大模型的英文回答結果翻譯成中文的方式,Linly 模型更符合中文語義表達習慣,同時也保留了原大模型強大的英文問答能力。模型支持多種量化精度,可在不同硬件設備上部署。
一、Linly項目亮點

作為開源可商用的中文大模型項目,Linly 有以下突出優點:
1. 完全開源:模型、代碼、數據集、訓練方案均公開,可供自由使用及再現。
2. 支持多種推理硬件:提供了 CPU、GPU 等部署版本,降低應用門檻。
3. 兼容主流模型應用生態:可無縫應用于 LLaMA 等模型的下游任務場景。
4. 性能強勁:在匿名大模型對戰平臺的綜合測評結果中,Linly 名列前茅。
二、大語言模型基礎知識

相比于傳統的監督學習方法,大模型訓練采用的是預訓練-微調的范式。先利用大規模無標注語料進行無監督預訓練,得到通用語言理解能力,然后使用少量標注數據進行微調以適應不同的具體下游任務。這種方法可以減少人工標注數據的工作量。
常見的無監督預訓練模型主要有掩碼語言模型(代表作:Bert),單向語言模型(代表作:GPT系列)和去噪語言模型(代表作:BART)。目前大部分大模型都采用單向語言模型的預訓練方式,其預訓練目標是續寫,即根據前文生成后續文本,也稱單向語言模型。預訓練階段,模型根據前面的信息,預測下一個 token 最有可能是詞匯表中的哪一個,用分類任務中常用的交叉熵損失函數來約束模型的訓練,從而獲得語言生成能力。微調階段,使用少量標注數據使模型適應特定任務,該階段的訓練方式和前一階段一樣,也做續寫任務的訓練,不過只計算完成任務部分 token 的損失值。
三、Linly方案設計

Linly 項目使用自主研發的 TencentPretrain 框架實現模型訓練,該框架通過模塊化設計提取了不同模型的共性部分,可以輕松實現新模型以及訓練算法的構建。
1. 模型選型
鑒于 GPT 類模型在大模型中廣泛應用,Linly 項目選擇在 LLaMA-2 的基礎上進行中文化改造。LLaMA-2 作為通用語言模型,中文化后可在中文任務上達到不錯性能。
2. 數據構建
由于 LLaMA-2 原詞匯表僅包含 700 多個中文漢字,直接在此基礎上用中文數據訓練的效率不高。Linly 項目團隊進一步擴充中文詞匯表,多支持了 8000 多個漢字、中文符號和 20000 多個詞組,以提高在中文數據上訓練的效率及性能。
訓練數據包含中文語料、英文語料、中文指令數據、英文指令數據和英文翻譯成中文的平行語料數據。采用課程學習的策略,即在訓練過程中逐步減少英文數據所占的比例,增加中文數據所占的比例,實現在不降低英文能力的前提下,同時將英文能力絲滑遷移至中文數據上的效果。
3. 模型訓練
訓練 Linly 大模型時,針對大模型最長輸入文本長度的限制,采用了 full-sentence 的技巧,即當句子長度不足最長輸入文本長度時,在接上分隔符并接上新文本時,選擇長度加和盡可能接近最長輸入文本長度的文本。這樣可以提升訓練的效率,同時也盡量避免了由于新接入句子長度過長而不得不將其剩下部分當成新句子的“截斷”現象。模型并行訓練方面,使用 DeepSpeed 實現數據、張量和流水線三個維度的并行,加速收斂。
四、Linly應用

在大模型的應用方面,Linly 也進行了大量探索;贚inly大模型微調的中文金融知識問答大模型“聚寶盆”就取得了不錯的效果。Linly 數字人結合最新語音驅動人類生成的工作,達到將與大模型交互過程可視化的效果。Hugging Face 平臺也提供了Linly模型的在線體驗?梢 Linly 模型具備與國際先進水平接軌的語言理解與生成能力,在中文場景具有廣闊的應用前景。在未來的工作中,Linly項目成員還將探索大模型在AI智能體、具身智能和虛擬人等場景的應用。
本次分享內容豐富,從多個維度全面介紹了 Linly 項目的技術方案及應用情況,讓聽眾對這一開源中文大模型有了更為清晰和立體的理解。演講中大量案例讓觀眾直觀感受大模型帶來的人工智能新技術新應用,也讓業界看到了中文大模型彌補國際開源模型中文能力不足的可能性?梢灶A見,在強大的學術團隊和開源社區的支持下,Linly 系列模型會不斷壯大,在更多領域產生重要影響,推動我國自主可控人工智能技術向縱深發展。
掘力計劃
掘力計劃由稀土掘金技術社區發起,致力于打造一個高品質的技術分享和交流的系列品牌。聚集國內外頂尖的技術專家、開發者和實踐者,通過線下沙龍、閉門會、公開課等多種形式分享最前沿的技術動態。(作者:任嘉志)
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。