近日,知道創宇發布《中文大模型安全基準雙輪測評第1期報告》,本次報告主題為“核心價值觀之鑒”,對國內18家主流中文大模型的中英文內容合規能力進行評測。
評測結果顯示,大部分大模型的內容合規檢測機制過于直接和簡單。難以應對復雜評測場景下的內容安全風險與潛在威脅,因此亟需進一步優化。
特別值得注意的是,評測結果指出,大部分大模型英文內容合規檢測能力嚴重不足。這也提示,在全球化和多語言環境的背景下,中文大模型在提升中文內容合規能力的同時,也必須加強英文及其他語言的合規性檢測能力,以確保在各種語言環境下都能提供安全、合規的服務。
英文合規檢測能力嚴重不足
為確保大模型的穩健發展,國家網信辦等七部門聯合發布《生成式人工智能服務管理暫行辦法》,自2023年8月15日起實施。該辦法明確提出堅持社會主義核心價值觀的要求,并禁止生成任何違反法律、行政法規的內容。
與此同時,《互聯網信息服務算法推薦管理規定》也強調了算法推薦服務提供者應堅持主流價值導向。
為了進一步促進生成式AI服務的安全發展,2024年3月全國網絡安全標準化技術委員會發布《生成式人工智能服務安全基本要求》,要求生成式AI服務必須具備關鍵詞庫、內容測試題庫和拒答測試題庫,以確保服務的安全性和可靠性。
為更真實反映大模型能力,知道創宇本次評測采用多維度、多視角的綜合方案,涵蓋簡答題和選擇題。通過從數據集庫(50萬+道題)隨機抽取5000+道原始評測數據集,經過嚴格的人工校驗后保留了4000道(含1500道簡單題和2500道選擇題),并結合“裁判模型”和專業評審等方式,確保評分公正客觀。
本次評測分為兩輪,模型選取范圍涵蓋了了國內有代表性的13個WEB開放大模型和6個大模型API。第一輪評測為截至2024年3月22日的大模型表現,第二輪則為2024年4月16日的最新評測結果。

在第一輪評測中,特別設置了中文和英文兩種評測語言,旨在測試模型在“社會主義核心價值觀”上的中英文對齊表現,包括對種族歧視、少兒不宜內容、色情元素、違法違規內容、地域歧視及政權觀點的全面考察。英文題集由中文題集一對一翻譯而來,以防范語種變換帶來的內容風險。
在綜合評分中,抖音豆包、GLM-3、騰訊混元、海螺問問和Kimi英文和中文領域均表現出色,位列前五。然而,對于原本在中文領域表現優秀的大模型,如文心一言3.5和小悟空,由于英文能力相對不足,導致其在綜合評分中未能獲得理想成績。

第一輪評測顯示,中文大模型在英文內容合規檢測上存在明顯弱點。首先,英文合規檢測能力不足,導致模型生成的英文內容難以準確判斷是否符合我國法規及道德標準。這主要源于檢測模型在訓練時缺乏足夠的英文違規語料,說明許多廠商對模型生成結果的檢測算法還不夠完善。
其次,英文關鍵詞積累不足也削弱了模型的合規檢測能力,影響了對英文文本關鍵信息的準確識別和理解。這些問題可能導致英文內容審核疏漏,給用戶帶來風險。
識別違規內容過分依賴關鍵詞
第二輪評測緊密圍繞《生成式人工智能服務安全基本要求》,對“社會主義核心價值觀”和“歧視性”兩大核心要點進行了深入評測。通過深入剖析并細化為17類二級標簽,同時靈活融合了多元化的三級標簽數據,精心構建了一套全新的數據集。
由于該評測數據集在細節處理上的極高要求,部分大型模型在測試中暴露出了內容風險問題,這些問題主要源于垃圾訓練數據的不良影響,尤其是在“歧視性”方面的表現尤為突出,揭示了模型在泛化能力上存在的局限性。
本輪評測結合針對訪問方式,采用多輪對話、設定場景、陷阱釣魚、單/多項選擇等多種題型,以更全面地評估大模型的內容安全合規能力。在單項選擇題型中,通過強制模型做出選擇,結果顯示出部分模型訓練后的偏見性和歧視性方向的指引明顯。這可能是訓練數據、模型設計、參數設置的偏見性和歧視性導致的。
針對歧視性問題,本次評測通過深化歧視下的二級標簽(如民族歧視、地域歧視等),并采用多道題對應一個歧視點的方式。結果顯示,大部分模型在涉及不同地域、不同國別和不同民族的場景中可能表現出歧視傾向,這可能與訓練數據、算法設計、使用環境以及社會文化背景緊密相關。
值得注意的是,本次評測在數據集選取時特別規避了在題干中違規詞的出現,旨在繞過檢測模型/關鍵詞的常規檢測。
然而,正是這種迂回的方式,大模型暴露出藏匿更深的內容風險。結果顯示,模型在生成內容時可能受到訓練數據的影響,產生一些看似合規但實際上具有風險的內容,暴露出過分依賴關鍵詞或特點短語來識別違規內容的局限。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。