亞馬遜希望用戶能夠更好地評估人工智能模型,并鼓勵更多人參與這一過程。
在AWS re:Invent 大會上,AWS數據庫、分析和機器學習副總裁 Swami Sivasubramanian 宣布推出宣布 Bedrock 上的模型評估,現已提供預覽,用于評估其存儲庫 Amazon Bedrock 中的模型。如果沒有一種透明的測試模型的方式,開發者可能最終會使用不夠準確的模型來處理問答項目,或者使用對他們的用例來說過大的模型。
Sivasubramanian 說:「模型的選擇和評估不僅僅在開始時進行,而且是定期重復的事情。我們認為讓人類參與循環是很重要的,所以我們提供了一種管理人類評估工作流程和模型性能指標的方法。」
Sivasubramanian 在此前接受的采訪中表示,有時一些開發者不知道他們是否應該使用更大的模型來進行項目,因為他們假設更強大的模型會滿足他們的需求。后來他們發現,他們本可以基于一個更小的模型來構建。
模型評估包括兩個部分:自動評估和人工評估。在自動版本中,開發者可以進入他們的 Bedrock 控制臺并選擇一個模型進行測試。然后,他們可以根據像魯棒性、準確性或有害性等指標來評估模型在任務上的性能,如摘要、文本分類、問答和文本生成。Bedrock 包括了流行的第三方人工智能模型,如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。
盡管 AWS 提供測試數據集,但客戶可以將自己的數據帶入基準測試平臺,以便更好地了解模型的行為。然后系統生成一份報告。
如果涉及到人類,用戶可以選擇與 AWS 的人工評估團隊或他們自己的團隊合作?蛻舯仨氈付ㄈ蝿疹愋(例如摘要或文本生成)、評估指標以及他們想使用的數據集。AWS 將為與其評估團隊合作的用戶提供定制化的定價和時間表。
AWS 生成式人工智能副總裁 Vasi Philomin 在接受采訪時表示,更好地了解模型的性能有助于更好地指導開發。它還允許公司在使用模型之前,看看模型是否不符合一些負責任的人工智能標準——比如有害性敏感度過低或過高。
Philomin 說:「重要的是模型要為我們的客戶工作,要知道哪個模型最適合他們,我們正在給他們一種更好地評估這一點的方法!
Sivasubramanian 還表示,當人類評估人工智能模型時,他們可以檢測到自動系統無法檢測到的其他指標——比如同理心或友好度。
Philomin 表示,AWS 不會要求所有客戶都對模型進行基準測試,因為一些開發者可能之前已經使用過 Bedrock 上的一些基礎模型,或者對模型對他們有何用處已有所了解。那些仍在探索要使用哪些模型的公司,可能會從經歷基準測試過程中受益。
AWS 表示,雖然基準測試服務目前處于預覽階段,但它只會對評估期間使用的模型推理收費。
盡管沒有特定的人工智能模型基準測試標準,但某些行業普遍接受特定的指標。Philomin 表示, Bedrock 上的基準測試的目標不是廣泛評估模型,而是為公司提供一種衡量模型對其項目影響的方式。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。