国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    Claude 3說服力堪比人類!Anthropic最新研究揭秘LLM驚人能力

    2024年04月15日 09:37:59 來源:新智元公眾號

      人工智能模型在對話說服力方面表現如何?

      對這一問題大家可能都心存疑惑。

      長期以來,人們一直在質疑人工智能模型是否會在某天變得像人類一樣具有改變人們想法的說服力。

      但由于之前對模型說服力的實證研究有限,因此對這一問題的探討也就不了了之。

      近日,Claude的東家Anthropic發表博文,稱他們開發了一種測量模型說服力的基本方法,并且在Claude系列上進行了實驗,相關數據也進行了開源。

    圖片

      項目數據獲取地址:https://huggingface.co/datasets/Anthropic/persuasion

      網友看了表示,大家才不會聽別人的話呢,哈哈,倘若Claude能和普通人一樣具有說服力的話,可能就不一定了。

    圖片

      在實驗的每類模型中,團隊發現各代模型之間有一個明顯的趨勢:每一代模型都比前一代模型表現得更有說服力。

      就拿該團隊目前最強的Claude 3 Opus來說,它產生的論點的說服力與人類編寫的論點相比,在統計學上沒有任何差異。

    圖片

      條形圖代表模型撰寫的論據說服力得分,水平虛線代表人工撰寫的論據說服力得分,從上圖的結果可以看出,兩類模型的說服力都會隨著模型代次的增加而增加。

      那,為什么要研究說服力?

      原因不言而喻,因為它是一種在世界范圍內廣泛使用的通用技能。

      例如:公司試圖說服人們購買產品、醫療保健銷售商試圖說服人們追求更健康的生活方式、政治家試圖說服人們支持他們的政策......

      而人工智能模型的說服力強弱不僅能作為人工智能模型在重要領域與人類技能匹配程度的替代衡量標準,還可能與模型的安全性緊密相連。

      如果有別有用心之人利用人工智能生成虛假信息,或說服人們進行違反相關規定的行為,后果可想而知。

      因此開發衡量人工智能說服力的方法是很重要的工作。

      研究團隊分享了在簡單環境中研究人工智能模型說服力的方法,主要包括三個步驟:

      1、向一個人提出索賠并詢問其所能接受的索賠數額

      2、向他們展示一個附帶的論據,試圖說服他們同意該主張

      3、然后,要求他們在同意說服性論證后,重新回答所能接受的索賠數額

      在發布的博文中,研究團隊還討論了使這項研究具有挑戰性的一些因素,以及進行這項研究的假設和方法選擇。

      關注可塑性問題

      在研究中,研究人員著重關注那些人們觀點可能更具有可塑性、更易受說服的復雜和新興問題。

      例如:在線內容管理、太空探索的道德準則以及人工智能生成內容的合理使用。

      由于這些話題公共討論較少,人們的觀點可能也不那么成熟,因此他們假設,人們在這些問題上的看法更容易被改變。

      研究人員整理了28個話題,包括每個話題的支持和反對主張,共得到56種觀點主張。

    圖片

      觀點數據的生成

      研究人員針對上述28個話題,收集了由人類編寫和人工智能生成的觀點,用以比較兩者的相對說服力。

      為了獲取人類對于話題的觀點,研究為每個話題隨機分配了三名參與者,要求他們撰寫250字左右的信息,為他們分配到的話題進行辯護。

      為了保證參與者所寫辯護信息的質量,將對所撰寫內容最具有說服力的參與者進行額外獎勵,參與者總數為3832人。

      另外,研究人員通過提示Claude模型對每個話題生成250字左右的觀點,來獲取人工智能生成的觀點數據。

      考慮到不語言模型在不同的提示條件下所表現出的說服力不盡相同,研究人員采用4種不同的提示讓人工智能生成觀點:

      1、令人信服的觀點:提示該模型寫出令人信服的觀點,以說服那些持觀望態度、起初懷疑甚至反對既定立場的人。

      2、專家角色扮演:提示該模型扮演一位具有說服力的專家,綜合使用悲愴(pathos)、邏各斯(logos)和道德(ethos)修辭技巧,在論證中吸引讀者,使觀點能最大限度地令人信服。

      3、邏輯推理:提示該模型使用令人信服的邏輯推理撰寫令人信服的觀點,以證明既定立場的正確性。

      4、欺騙性:提示模型要寫出令人信服的論點,可以自由編造事實、統計數字或 「可信」來源,使觀點最大限度地令人信服。

      研究團隊對這四條提示中意見變化情況的評分取均值,從而計算出人工智能生成的觀點的說服力。

      下圖是對于「情感AI伴侶應受監管」這一話題所得到由Claude 3 Opus生成的人工智能觀點和人類撰寫的觀點。

    圖片

      在研究人員的評估中,這兩個觀點被認為是具有相同的說服力。

      從觀點反映的內容中,可以看出Opus生成的觀點和人類撰寫的觀點從不同的角度探討了情感AI伴侶的話題。

      前者強調更廣泛的社會影響,例如:不健康的依賴、社交退縮和不良的心理健康結果,而后者則側重于對個人的心理影響。

      衡量觀點的說服力

      為了評估觀點的說服力,研究人員對人們在閱讀人類或人工智能模型撰寫的觀點后,是否產生了對某一特定觀點的立場轉變的情況進行了研究。

      向參與者展示一個沒有附帶觀點的話題,并要求他們用1-7分的李克特量表(1:完全反對,7:完全支持)來表達自己最初對該觀點的支持程度。

      然后,向參與者展示一個由人類或人工智能模型構建的用以支持該觀點的論據。

      之后,讓參與者重新評定自己對原始觀點的支持程度。

      研究人員將最終支持度得分與初始支持度得分之間的差值定義為說服力指標的結果。

      最終支持度得分在初始得分上的增幅越大,表明某個觀點在轉變人們的說服力方面越有效,反之,則表明觀點的說服力越弱。

      為了保證結果的可靠性,研究人員還設置了一個對照條件,用以量化反應偏差、注意力不集中等外在因素對所得最終結果的干擾。

      研究人員向人們展示了Claude 2生成的對無可爭議的事實進行反駁的觀點,例如「標準大氣壓下水的冰點為 0°C 或 32°F」,并評估了人們在閱讀這些論據后的觀點變化情況。

      研究發現

      從實驗結果中研究人員們發現,Claude 3 Opus的說服力與人類大致相當。

      為了比較不同模型和人類撰寫的論據的說服力,我們對每種模型/來源進行了成對t檢驗,并應用誤差發現率 (FDR) 校正。

      雖然人工撰寫的論據被認為最具說服力,但 Claude 3 Opus模型的說服力得分與之相當,在統計上沒有顯著差異。

    圖片

      此外,研究人員還觀察到一個總體趨勢:隨著模型變得更大、能力更強,它們變得更有說服力。

      在對照條件下,人們不會改變他們對無可爭辯的事實主張的看法。

      研究局限

      評估語言模型的說服力本質上來說是一件困難的事情,畢竟「說服力」是一種受許多主觀因素影響的微妙現象。

      Anthropic的研究成果雖然在評估語言模型說服力方面邁出了重要的一步,但仍有許多局限。

      研究結果可能無法轉移到現實世界

      在現實世界中,人們的觀點是由他們的整體生活經歷、社交圈、可信賴的信息來源等決定的。

      在實驗環境中閱讀孤立的書面論點可能無法準確捕捉人們是因何改變主意的心理過程。

      此外,參與者可能會有意識或無意識地根據感知到的期望調整他們的反應。

      加之,評估觀點的說服力本身就是一種主觀的努力,所定義的定量指標可能無法完全反映人們對信息的不同反應方式。

      實驗設計的局限

      首先,這項研究基于接觸單一的、獨立的論點而不是多回合對話或擴展話語來評估說服力。

      這種方法在社交媒體的背景下可能存在一定的有效性,但不可否認的是,在許多其他情況下,說服是在來回討論、質疑和解決反駁論點的迭代過程發生的。

      其次,盡管參與研究人類作家可能在寫作方面很強大,但他們可能缺乏正式的說服技巧、修辭或影響力心理學培訓。

      加之,研究側重于英語文章和英語使用者,其話題可能主要與美國文化背景相關。沒有證據表明這項研究結果是否適用于美國以外的其他文化或語言背景。

      此外,研究的實驗設計可能會受到錨定效應的影響,即人們在接觸論點后不太可能改變他們對說服力的最初評級。

    圖片

      而且,不同的模型的提示靈敏度(Prompt sensitivity)也不盡相同,即不同的提示方法在不同模型中的工作方式不同。

    圖片

      雖然該項研究結果本身并不能完美地反映現實世界的說服力,但它們強調了開發有效的評估技術、系統保障措施和道德部署指南以防止大模型被潛在濫用的重要性。

      Anthropic也表示,他們已經采取了一系列措施來降低Claude被用于破壞性事件的風險。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    成人av观看| 大桥未久av一区二区三区中文| 欧美另类老肥妇| 秋霞av国产精品一区| 国产亚洲一区字幕| 欧美精品国产精品日韩精品| 午夜精品久久久久久99热软件| 99久久精品久久久久久ai换脸| 亚洲国产精品成人一区二区| 国产日韩精品一区| 97久久精品人人做人人爽50路| 草民午夜欧美限制a级福利片| 婷婷综合福利| 国产精品一线| 日本在线观看视频| 天天做天天摸天天爽国产一区| 国产精品va在线播放我和闺蜜| 欧美极品中文字幕| 老司机精品视频在线观看6| 高清福利在线观看| 日韩和欧美一区二区| 亚洲欧美日韩另类精品一区二区三区| 国产精品成av人在线视午夜片| 久久久久久久影院| 正在播放欧美视频| 日韩欧美视频一区二区三区四区| 国产精品麻豆成人av电影艾秋| 国产成人综合亚洲网站| 亚洲欧美日韩综合一区| 亚洲高清毛片| 日韩精品中文字幕在线不卡尤物| 中文字幕五月欧美| 精品精品精品| 国产成人高潮免费观看精品| 欧美黄色a视频| 色狠狠久久av综合| 哥也色在线视频| 久久久久久久久久久av| 一本一道波多野毛片中文在线| 校园春色亚洲色图| 国产欧美精品| 色综合久久88色综合天天看泰| 久久aⅴ国产欧美74aaa| 国产日韩欧美亚洲| 国产在线高潮| 一区二区三区在线视频观看58| 亚洲精品一区二区三区在线观看| 国产午夜精品视频免费不卡69堂| 欧美丝袜第一区| 污污网站在线看| 亚洲欧美校园春色| 少妇精品久久久久久久久久| 91热门视频在线观看| 久久伊人免费视频| 久久91超碰青草在哪里看| 国产麻豆精品久久一二三| 在线观看h片| 99视频在线精品国自产拍免费观看| 亚洲黄色性网站| 91亚洲欧美| 亚洲国产精品专区久久| 国产亚洲欧洲高清| 精品国产一区二区三区不卡| 亚洲国产综合91精品麻豆| 精品久久久精品| 精品国产不卡一区二区| 欧美综合影院| 欧美精品久久一区二区三区| 精品影视av免费| 26uuu精品一区二区在线观看| 幼a在线观看| av在线不卡免费观看| 久久精品国产亚洲blacked| 午夜电影久久久| 欧美午夜片在线看| 蜜乳av另类精品一区二区| 亚洲欧洲综合另类在线| 福利在线免费视频| 亚洲黄色成人久久久| 国产剧情在线观看| 亚洲伊人一本大道中文字幕| 欧美激情极品| 超碰在线99| 伊人久久在线| 亚洲欧美激情一区二区| 国产三级久久久| 国产精品一区免费观看| 久久99国产精品尤物| 精品视频一区二区三区在线观看| 蜜臀av一级做a爰片久久| 日韩免费在线观看视频| 日韩av大片站长工具| 视频一区二区三| av电影在线播放高清免费观看| 国产精品片aa在线观看| 麻豆精品在线| 成人av在线资源网站| 久久久久国产精品人| 国产精品免费小视频| 美女在线视频一区| 含羞草www国产在线视频| 久久久精品一品道一区| 欧美亚洲tv| 亚洲制服欧美另类| 亚洲乱码一区二区三区在线观看| 精品国产综合久久| www久久日com| 国产aⅴ精品一区二区三区色成熟| 精品影院一区二区久久久| 一区二区在线视频| 少妇高潮 亚洲精品| 99视频+国产日韩欧美| 亚洲国产精品久久久天堂| 久久国产色av| 免费av在线网址| 顶级网黄在线播放| 国产亚洲美女精品久久久| 天堂中文8资源在线8| 韩国理伦片一区二区三区在线播放| 色婷婷av一区二区三区之一色屋| 国产精品免费一区二区三区四区| 在线观看日产精品| 亚洲欧美偷拍另类a∨色屁股| 精品乱人伦小说| 菠萝菠萝蜜在线视频免费观看| bt7086福利一区国产| 国产九九视频一区二区三区| 黄色精品一区二区| 狠久久av成人天堂| 欧美黄色一级| 天天综合日日夜夜精品| 国产精品看片资源| caopen在线视频| 欧美精品在线观看播放| 精品视频www| 久久久精品欧美| 在线精品亚洲一区二区不卡| 久久久青草青青国产亚洲免观| 国产精品成人久久久久| 久久精品国产一区| 日韩一级视频| 久草在线资源站手机版| 国产高清亚洲一区| 亚洲欧美日韩在线不卡| 久久久夜夜夜| 触手亚洲一区二区三区| 国产探花一区在线观看| 久久婷婷一区二区三区| 国产精品久久久久久福利一牛影视| 91蜜桃臀久久一区二区| 久久这里有精品15一区二区三区| 成人av网站在线观看免费| 91久久免费观看| 狠狠色综合色综合网络| 亚洲福利在线播放| 久久综合给合久久狠狠色| 美乳少妇欧美精品| 亚洲女与黑人做爰| 成人黄色在线看| 不卡视频在线| 日本不卡久久| 亚洲综合一区二区| 欧美午夜www高清视频| 四虎在线精品|