版權問題引發大規模的生成式人工智能爭議,Meta 試圖以不公開訓練數據的方式規避爭議。
周二,社交媒體巨頭 Meta 發布了一款名為 Llama 2 的龐大新模型,但在研究論文中幾乎沒有透露使用了哪些數據。「新的公開可用的在線數據,」Meta 的研究人員在論文中寫道,幾乎沒有其他信息。
這是不同尋常的。迄今為止,人工智能行業一直對模型的訓練數據持開放態度。原因在于:這種強大的技術必須被理解,其輸出必須盡可能地可解釋和可追溯,以便研究人員在出現問題時可以進行修復。訓練數據對這些模型的性能至關重要。
例如,原始的 Transformer 研究論文揭示了用于訓練的詳細數據。其中包括來自WSJ 的約 40,000 個句子。
Meta 在今年二月發布第一版 LLaMA 時,論文中列出了所有的訓練數據。它包括一堆圖書和 Common Crawl 數據集,這是一個自 2008 年以來積累的龐大互聯網副本,存儲在亞馬遜的云端,隨時可以下載。該數據集占 Meta 用于訓練 LLaMA 的信息的三分之二以上。
而在過去五個月里,出版商、作家和其他創作者突然意識到他們的作品被用于訓練所有這些人工智能模型。他們并沒有被征求許可。
已經有一系列訴訟挑戰了科技公司使用這些信息訓練 AI 模型的權利。Sarah Silverman的投訴可能是迄今為止最有名的一個。
對于大型科技公司來說,他們知道這是一個風險。微軟作為產業領導者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了這個風險因素。微軟在四月份增加的新部分中強調了版權作為知識產權法的重要組成部分。
谷歌,作為另一個人工智能領域的領導者,不愿為在線內容付費,因為這會削弱其高盈利的商業模式。谷歌的高級法律顧問 Halimah DeLaine Prado 表示,美國法律「支持使用公共信息來創造新的有益用途」,這一觀點在法庭上可能占上風。
而 Meta 似乎已經認定,在這個新法律問題得到解決之前,不告訴任何人使用了哪些數據是一個安全的做法。
此外,Meta 可能還有其他原因保持沉默。Lamini AI 創業公司的 CEO Sharon Zhou 提出了一些理論,包括最具爭議的一點:Meta 在規避法律責任,公司想要保留將 Llama 2 復制的能力,也有可能是因為整理所有元數據是很費時的工作,所以 Meta 可能會在合適的時候發布訓練數據的細節。
對此,Meta 表示,他們將發布模型權重和起始代碼,以供開發者使用,并強調他們致力于負責任和道德的開發生成式 AI 產品,確保他們的政策符合不同背景的要求和不斷變化的社會期望。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。