近年來,隨著人工智能(AI)和主要是生成式AI領域的進展,已經展示了大型語言模型(LLMs)生成文本以響應輸入或提示的能力。這些模型能夠像人類一樣生成文本,回答問題,總結長篇文本段落等。然而,即使在訪問參考資料之后,它們也不完美,可能會產生錯誤。這樣的錯誤可能會在銀行業或醫療保健等重要應用中產生嚴重后果。
為了解決這個問題,一組研究人員最近提出了GENAUDIT,這是一種專門用于幫助核查基于文檔基礎的LLM回復的工具。GENAUDIT的功能是通過建議對語言模型生成的響應進行更改來發揮作用。它突出顯示參考文檔中不符合要求的陳述,并建議對響應進行更改或刪除。它還提供了來自參考文本的證據,以支持LLM的事實陳述。
為了構建GENAUDIT,已經訓練了專門設計用于執行這些任務的模型。這些模型已經被教導從參考文檔中提取證據以支持事實陳述,識別不支持的主張,并推薦合適的修改。GENAUDIT具有交互式界面,可幫助進行決策和用戶交互。借助此界面,用戶可以檢查和批準推薦的調整和支持文件。
團隊表示,已經通過人工評估對GENAUDIT進行了深入評估,評估人員通過檢查它在多個類別中的表現來評估其性能,查看它在總結文件時如何準確識別LLM輸出中的缺陷。評估結果表明,GENAUDIT能夠準確地識別出來自八種不同LLM的輸出中的缺陷,涵蓋了多個領域。
為了優化GENAUDIT的錯誤檢測性能,團隊建議了一種技術,該技術在減少精度損失的同時最大化錯誤召回率。該策略確保系統在保持準確性水平基本不變的同時,能夠檢測到大部分的故障。
團隊總結了他們的主要貢獻如下:
1.引入了GENAUDIT,這是一種支持基于文檔的任務中的事實核查語言模型輸出的工具。該工具突出顯示了LLM生成的內容中陳述的支持數據,找出了缺陷,并提供了解決方案。
2.評估并提供了用于事實核查的后端模型的優化LLMs。這些版本在少量數據條件下性能相當,尤其是與最先進的專有LLMs相比。
3.對GENAUDIT在檢查來自三個不同領域的文件的八種不同LLM生成的摘要中存在的錯誤的有效性進行了評估。
4.介紹并評估了一種在解碼時間使用的技術,旨在通過犧牲精度的微小降低來提高錯誤檢測召回率。這種方法在保持整體準確性的同時增強了錯誤檢測的能力。
GENAUDIT是一款優秀的工具,有助于改善具有強大文檔基礎的任務中的事實核查程序,并提高LLM生成的信息在重要應用中的可靠性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。