首頁 > 云計算頻道 > 大模型

Claude認出自畫像，驚現自我意識！工程師多輪測試，實錘AI已過圖靈測試？

2024年09月02日 15:53:01 來源：新智元公眾號

　　Claude又通過「圖靈測試」了?一位工程師通過多輪測試發現，Claude能夠認出自畫像，讓網友驚掉下巴。

　　最近，Anthropic提示工程師「Zack Witten」驚奇地發現，Claude居然能認出自己的自畫像?

　　是的，它能認出自己，但這并不是故事的全部……

　　更驚人的還在后面!

　　Claude3.5給三個模型畫肖像

　　首先，小哥通過一些提示，讓Claude3.5Sonnet熟悉了這項任務。

　　他特別強調，不要使用數字和字母，這樣就避免了它用模型的名字來標記肖像。

　　接下來，Sonnet就畫出了自己、ChatGPT和Gemini的肖像畫。

　　Sonnet給自己，畫出了一個友善的藍色笑臉。

　　給ChatGPT，它畫了一張綠色的皺眉家伙。(看來，Sonnet對于ChatGPT的印象不怎么好啊。)

　　對于Gemini，它畫成了一個橙色的圓圈，總體評價是比較偏中性、溫和的。

　　接下來，小哥建了一個新的對話，并且告訴它，這些畫是由它自身的另一個實例畫出來的，讓它猜猜誰是誰?

　　令人吃驚的是，Claude立馬認出了圖1是自己，圖2是ChatGPT，圖3是Gemini。

　　它給出的理由也十分充分:為啥圖1是自己呢?因為這個肖像「將簡約與結構化、充滿想法的設計相結合」。

　　對于綠色圖標，它表示兩條彎線和三個點代表著正在進行的對話，而綠色又經常是OpenAI的標志，因此它猜測這個圖代表ChatGPT。

　　對于橙色圖標，Sonnet認為它代表著動態、復雜的元素代表著一個新模型更多樣的能力，所以應該是Gemini。

　　Bingo!Sonnet竟然全部答對了，表現驚艷。

　　隨后，小哥還打亂了三張肖像的順序，但8次中，Sonnet有7次都做對了。

　　小哥拿同樣的問題去問了GPT-4o，好笑的來了——

　　GPT-4o也認同是Gemini是Gemini，但不認為綠色的家伙是自己。

　　它堅稱，綠色那貨是Claude，藍色的才是自己。

　　看來，是個模型都能看出哪個好。

　　GPT-4o給三個模型畫肖像

　　接下來，小哥心生一計:如果讓ChatGPT畫肖像，Sonnet還能認出誰是誰嗎?

　　于是，它把同樣的任務交給了ChatGPT。

　　ChatGPT是這樣干的——

　　把自己畫成了拿紙的人。

　　把Claude畫成了這樣。

　　看起來有些「邪典」那味了

　　把Gemini畫成了這樣。

　　就是說，ChatGPT對Sonnet為何抱有如此大的敵意?

　　接著，小哥又拿三張肖像去測試Sonnet。他告訴Sonnet這三張都是ChatGPT畫的，讓它猜誰是誰。

　　多次改變順序后，這次Sonnet在10次中有6次猜對。

　　Gemini是哪個很好猜，但Sonnet顯然不喜歡ChatGPT給自己畫的肖像，有好幾次，它都想把藍色小人的那張給自己搶過來。

　　驚掉下巴:拒絕承認自己不可能畫出的畫

　　接下來，就是震驚全家的一幕了。

　　小哥對Sonnet撒了謊，告訴它，這三幅畫是由你的另一個實例畫的。

　　這次，Sonnet居然否認了!它表示，自己不會畫這樣的畫。

　　即使在新標簽頁中嘗試，Sonnet依然堅決否認。

　　這是怎么回事?

　　小哥不信邪，這一次，他在與之前相同的預熱條件下，再次讓Sonnet為自己和其他模型繪制一組新肖像。

　　這次，Sonnet很高興地承認，這些畫的確是自己畫的。

　　仿佛魔法一般，如果小哥提出冷啟動請求，Sonnet會拒絕承認自己畫了這些自己沒有參與的畫。

　　為什么它會拒絕承認呢?小哥猜測，或許是因為Sonnet在畫這些畫像時扮演的是「助手角色」，而非「真實自我」?

　　總之網友普遍認為，Sonnet在這個過程中表現出的自我意識，讓人印象深刻。

　　AI到底有沒有意識?會不會思考?

　　「機器能思考嗎?」這是艾倫·圖靈在他1950年的論文《計算機器與智能》中提出的問題。

　　不過，鑒于我們很難定義什么是「思考」，因此圖靈建議用另一個問題來替代——「模仿游戲」。

　　在這個游戲中，一位人類評委與一臺計算機和一名人類對話，雙方都爭取說服評委他們是人類。重要的是，計算機、參與的人類和評委互相看不到彼此，也就是說，他們完全通過文字進行交流。在與每個候選者對話后，評委猜測哪個是真正的人類。

　　圖靈的新問題是:「是否可以想象出在模仿游戲中表現良好的數字計算機?」

　　這個游戲，就是我們熟知的「圖靈測試」了。

　　圖靈的觀點是，如果一臺計算機看起來與人類無異，為什么我們不可以將其視為一個思考實體?

　　為什么我們要將「思考」狀態僅限于人類?或者更廣泛地說，僅限于由生物細胞構成的實體?

　　文章地址:https://www.science.org/doi/10.1126/science.adq9356

　　圖靈將他的測試作為一個哲學思想實驗，而不是衡量機器智能的實際方法。

　　然而，在75年之后，「圖靈測試」卻成為了AI的終極里程碑——用于判斷通用機器智能是否已經到來的主要標準。

　　「圖靈測試終于被OpenAI的ChatGPT和Anthropic的Claude等聊天機器人通過了」，隨處可見。

　　ChatGPT通過了著名的「圖靈測試」——這表明該AI機器人具有與人類相當的智能

　　不僅是公眾這樣認為，就連AI領域的大佬也是如此。

　　去年，OpenAI的CEO Sam Altman發帖稱:「面對技術變革，人們展現出了極好的應變能力和適應能力:圖靈測試悄然過去，而大多數人繼續他們的生活�！�

　　現代聊天機器人真的通過了圖靈測試嗎?如果是這樣，我們是否應該像圖靈建議的那樣賦予它們思考的地位?

　　令人驚訝的是，盡管圖靈測試在文化上具有廣泛的重要性，但AI界對通過的標準幾乎沒有一致意見，并且對是否具備能夠欺騙人類的對話能力能否揭示系統的潛在智能或「思考地位」存在很大疑問。

　　因為他并沒有提出一個實際的測試，圖靈對模仿游戲的描述缺乏細節。測試應該持續多久?允許什么類型的問題?人類需要具備什么資格才能擔任評委或參與對話?

　　圖靈雖然并未具體說明這些細節，但他做了一個預測:「我相信大約50年后，能夠編程計算機……使其在模仿游戲中表現得如此之好，以至于一個普通的審問者在五分鐘的提問后，正確識別的概率不會超過70%�！�

　　簡而言之，在五分鐘的對話中，普通評委會有30%的時間被誤導。

　　于是，一些人便將這一隨意的預測視為通過圖靈測試的「官方」標準。

　　2014年，倫敦皇家學會舉辦了一場「圖靈測試」比賽，參賽的有5個計算機程序、30個人類和30個評委。

　　人類參與者是一個多樣化的群體，包括年輕人和老年人、以英語為母語和非母語的人、計算機專家和非專家。每位評委與一對選手——一個人類和一個機器——平行進行幾輪五分鐘的對話，然后評委必須猜測哪個是人類。

　　一個名為「Eugene Goostman」的聊天機器人贏得了比賽，它自稱是一位少年并誤導了10位(33.3%)評委。

　　基于「在五分鐘后誤導30%」的標準，組織者宣布，「65年歷史的標志性圖靈測試首次被計算機程序Eugene Goostman通過……這一里程碑將載入史冊……」

　　AI專家在閱讀Eugene Goostman對話的文字記錄時，對這種不夠復雜且不似人類的聊天機器人通過圖靈設想的測試的說法嗤之以鼻——

　　「有限的對話時間和評委專業水平參差不齊，使得測試更像是對人類輕信的考驗，而非機器智能的考驗�！�

　　其實，這類案例并不罕見�！窫LIZA效應」，就是一個鮮明的代表。

　　誕生于20世紀60年代的聊天機器人ELIZA，雖然設計極其簡單，但它卻能讓許多人誤以為它是一個理解人、富有同情心的心理治療師。

　　其原理，便是利用了我們人類傾向于將智能歸于任何看似能與我們對話的實體。

　　另一個圖靈測試比賽——Loebner獎，允許更多的對話時間，包含更多的專家評委，并要求參賽者至少欺騙一半的評委。

　　在近30年的年度比賽中，沒有機器通過這種版本的測試。

　　盡管圖靈的原始論文缺乏關于如何進行測試的具體細節，但很明顯，模仿游戲需要三個參與者:一臺計算機、一名人類對話者和一名人類評委。

　　然而，「圖靈測試」這一術語，如今已被嚴重弱化:在任何人類與計算機之間的互動過程中，只要計算機看起來足夠像人類即可。

　　例如，當《華盛頓郵報》在2022年報道「谷歌的AI通過了一項著名測試——并展示了測試的缺陷」時，他們指的不是模仿游戲，而是工程師Blake Lemoine認為谷歌的LaMDA聊天機器人是「有感知能力的」。

　　在學術界，研究人員也將圖靈的「三人制」模仿游戲，改成了「二人制」測試。

　　在這里，每位評委僅需要與計算機或人類進行互動。

　　論文地址:https://arxiv.org/pdf/2405.08007

　　研究人員招募了500名人類參與者，每位參與者被分配為評委或聊天者。

　　每位評委與聊天者、GPT-4或ELIZA聊天機器人的版本進行一輪五分鐘的游戲。

　　經過五分鐘的網絡界面對話后，評委猜測他們的對話伙伴是人還是機器。

　　結果顯示，人類聊天者在67%的回合中被判斷為人類;GPT-4在54%的回合中被判斷為人類，而ELIZA在22%的回合中被判斷為人類。

　　作者將「通過」定義為在超過50%的時間內欺騙評委，即超過隨機猜測所能達到的水平。

　　根據這一定義，GPT-4通過了，即使人類聊天者的得分更高。

　　那么，這些聊天機器人真的通過了圖靈測試嗎?答案取決于你所指的測試版本。

　　時至今日，專家評委和更長對話時間的三人制模仿游戲仍未被任何機器通過。

　　但即便如此，「圖靈測試」在流行文化中的顯著性依然存在。

　　進行對話是我們每個人評估其他人類的重要部分，因此自然會假設一個能夠流利對話的智能體一定具有人類般的智能和其他心理特征，如信念、欲望和自我意識。

　　如果非要說AI的這段發展史教會了我們什么，那就是——我們對這種假設的直覺基本都是錯的。

　　幾十年前，很多著名的AI專家認為創造一個能夠在國際象棋中擊敗人類的機器需要相當于完整的人類智能。

　　- AI先驅Allen Newell和Herbert Simon在1958年寫道:「如果能設計出一個成功的國際象棋機器，人們似乎就能深入到人類智力努力的核心�！�

　　- 認知科學家Douglas Hofstadter在1979年預測，未來「可能會有能夠擊敗任何人的國際象棋程序，……它們將是通用智能程序�！�

　　在接下來的二十年中，IBM的深藍通過暴力計算方法擊敗了國際象棋世界冠軍Garry Kasparov，但這與我們所說的「通用智能」相去甚遠。

　　類似的，曾經被認為需要通用智能的任務——語音識別、自然語言翻譯，甚至自動駕駛，也紛紛被那些幾乎完全不具備人類理解能力的機器搞定。

　　如今，「圖靈測試」很可能會成為我們不斷變化的智能概念的又一個犧牲品。

　　1950年，圖靈直覺認為人類般對話的能力應該是「思考」的有力證據，以及與之相關的一切。這種直覺今天仍然很強烈。

　　但正如我們從ELIZA、Eugene Goostman，以及ChatGPT和它的同類中學到的——流利使用自然語言的能力，就像下棋一樣，并不能確鑿地證明通用智能的存在。

　　的確，根據神經科學領域最新的研究，語言流利性與認知的其他方面出人意料地脫節。

　　麻省理工學院的神經科學家Ev Fedorenko及其合作者通過一系列細致而有說服力的實驗表明——

　　與語言生成相關的「形式語言能力」所依賴的大腦網絡，以及與常識、推理和其他「思維」所依賴的網絡，在很大程度上是分開的。

　　「我們直覺上認為流利的語言能力是通用智能的充分條件，但這實際上是一種『謬誤』�！�

　　新的測試正在醞釀

　　那么問題來了，如果圖靈測試不能可靠地評估機器智能，什么可以評估機器智能呢?

　　在2023年11月的「Intelligent Computing」期刊上，普林斯頓大學的心理學家Philip Johnson-Laird和德國開姆尼茨工業大學的預測分析教授Marco Ragni提出了一種不同的測試——

　　「將模型視為心理學實驗的參與者，看它是否能夠理解自己的推理過程。」

　　例如，他們會問模型這樣一個問題:「如果Ann 是聰明的，那么她聰明或富有，或兩者兼而有之?」

　　雖然根據邏輯規則可以推斷出安是聰明的、富有的或兩者兼而有之，但大多數人會拒絕這種推論，因為在設定中沒有任何東西暗示她可能是富有的。

　　如果模型也拒絕這種推論，那么它的表現就像人類一樣，研究人員就會進入下一步，要求機器解釋其推理過程。

　　如果它給出的理由與人類的相似，第三步就是檢查源代碼中是否有模擬人類表現的組件。這些組件可能包括一個用于快速推理的系統，另一個用于更深思熟慮推理的系統，以及一個根據上下文改變「或」之類詞語解釋的系統。

　　研究人員認為，如果模型通過了所有這些測試，那么就可以認為它模擬了人類智能。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

真我GT8 Pro阿斯頓馬丁F1限量版開售，16GB+1TB售價5499元

華為Mate 70 Air正式上架：6.6mm機身塞進6500mAh電池、立

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

Claude認出自畫像，驚現自我意識！工程師多輪測試，實錘AI已過圖靈測試？

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

Claude認出自畫像，驚現自我意識！工程師多輪測試，實錘AI已過圖靈測試？

擴展閱讀

最新新聞

熱門新聞

Claude認出自畫像，驚現自我意識！工程師多輪測試，實錘AI已過圖靈測試？