通用大模型猶如大模型產業的地基,而地基的深度和強度將決定大廈的高度。
文|周享玥
編|趙艷秋
11月29日,第四屆人工智能計算大會(AICC 2023)在北京長安街中央商務區的一家酒店內召開。
今年異常熱鬧,包括百度、智譜AI、百川智能、網易伏羲、吉利汽車等在內的多家大模型企業和科技企業匯聚一堂,共同探討AI計算技術風向、AIGC創新成果等。國際數據公司IDC和浪潮信息還在會上聯合發布了一份《2023-2024年中國人工智能計算力發展評估報告》。
報告顯示,67%的中國企業都已開始探索生成式人工智能在企業內的應用機會或進行相關資金投入。其中,中國企業尤其認可生成式AI對于加速決策、提高效率、優化用戶和員工體驗等維度帶來的價值,并將在未來三年持續提高投入力度,超七成企業增幅在20%-40%之間。
隨著越來越多企業對生成式AI及大模型進行探索和投入,通用大模型的能力也在不斷被強調。一個共識是,通用大模型猶如大模型產業的地基,地基的深度和強度將決定大廈的高度。
底層的大模型廠商們正為此做出努力。就在這次會議召開前兩天,浪潮信息剛剛發布“源2.0”基礎大模型,并全面開源1026億、518億、21億三種參數規模的模型。
據悉,這是業界首個完全開源可商用的千億大模型,也是目前國內尺寸最大的全面開源大模型。而上一個在國內“最大參數開源大模型”記錄中留下過名字的是阿里。彼時,阿里巴巴集團CEO吳泳銘在2023年世界互聯網大會上宣布,阿里將開源720億參數大模型。
在通往大模型的未來之路上,持續拓寬行業落地的同時,打好地基,依然是重中之重。
01
大模型在路上,發展路徑百家爭鳴
大模型雖然今年才真正爆發,但業界對于這塊兒的探索,其實已經經過幾輪思考沉淀和總結。一位資深業內人士向數智前線描述了大模型發展的幾個階段:
以2018年谷歌發布擁有3億參數的BERT預訓練模型作為起點,AI的大模型時代就已開啟,包括OpenAI、谷歌、微軟、英偉達等國外玩家,浪潮信息、百度、阿里、騰訊等國內巨頭,都紛紛重兵投入,進行相關探索。
起初幾年,大家的焦點是拼參數,“每家都是奔著吉尼斯去的,你做千億,它就做萬億”。尤其是2020年5月OpenAI發布擁有1750億參數的GPT-3,首次將大模型參數規模提升到千億級后,各種千億、萬億大模型層出不窮,看得人眼花繚亂。對外宣傳口徑上,各家的提法也很統一,都在強調自己的“最大”。
這期間,更大參數量所帶來的智能涌現和泛化能力,讓不少人感到驚喜,但同時,也暴露出一些問題,比如當大模型要真正落到智算中心做工程化時,往往會遇到算力支撐上的巨大考驗。再加上正常的技術商業化路徑,大家普遍開始走入第二階段:探索在什么樣的場景里去應用。
“有的面向知識領域去做技能模型,有的面向行業直接去做行業的場景模型。”大模型走向行業、走向領域應用的路徑是什么,大家都在思考。
比如百度,在2022年5月一口氣發布了十款大模型,其中既包括與產業場景相結合的行業大模型,也包括做了知識增強的任務大模型。
浪潮信息也在2022年年中,推出了基于“源1.0”基礎大模型的4個技能大模型——對話模型“源曉問”、問答模型“源曉搜”、翻譯模型“源曉譯”,以及古文模型“源曉文”。
但這些探索和嘗試都還只能算是“小打小鬧”的中間態產品,尚未能在外界引起轟動,有人士后來反思,過早地進行領域模型和場景模型的應用,實際是犧牲了部分泛化能力的。直到ChatGPT的橫空出世,這場大模型熱潮才真正被引爆。業界的各種思潮開始迅速活躍起來。
IDC的報告顯示,目前,67%的中國企業都已開始探索生成式AI在企業內的應用機會或進行相關資金投入。具體到應用場景上,知識管理、對話式應用、銷售和營銷、代碼生成等是全球企業應用生成式人工智能的主要場景。
過去幾個月里,一些大模型的先行先鋒用戶們,也已基于自身實踐形成了各自獨有的路線和方向,大模型還是一個新鮮事物,大家的觀點各不相同。
不少企業通過對行業大模型的微調,在某些場景下嘗試落地大模型。不過,也有一些企業不認同行業大模型。
航旅領域里,中國航信一位工程師告訴數智前線,他們希望基于基礎大模型來做民航智能服務平臺,而不是經過剪裁了知識面的行業大模型。這背后的思考是,通用大模型的能力會隨著參數擴大而升級,但行業模型是基于某個版本的通用模型,投喂相應的專業數據訓練而成。通常,基礎大模型會做參數升級,而行業模型很難同步,這不利于模型的智能水平。
有企業則在不斷反思,行業落地與基礎模型性能提升如何齊頭并進的問題。一家大模型產業鏈企業告訴數智前線,大模型在行業內的落地速度,實際落后于他們年初預期,其中很大一部分原因,是因為國內的基礎大模型還不夠成熟,性能仍有待提升。
11月初,GPT-4 Turbo的炸街式發布,更加深了業界對大模型基礎能力提升的迫切性。“現在最可怕的事情是,OpenAI在開發者大會上展現出來的能力,又把我們跟GPT-4之間的差距拉大了。”浪潮信息高級副總裁劉軍表示,如何持續不斷地去縮小這種差距,甚至再往后實現超越,是目前國內大模型行業面臨的核心問題。
劉軍認為,AI產業一定會快速增長,但只有當產業足夠壯大時,每個參與者從中切到的蛋糕才會越大。因此,國內大模型從業者首先要做的,是讓蛋糕做大。而這其中的一大核心,就是讓基礎大模型的能力提升上去。這就好比人才的教育過程,絕大多數情況下,首先有了較強的基本能力和素質,才能在不同專業、行業里干得更好。否則,客戶體驗很差,用不起來,也就難以轉動商業模式。這也是浪潮信息選擇全面開源“源2.0”基礎大模型的原因之一。
02
基礎大模型正百花齊放
浪潮信息人工智能軟件研發總監吳韶華告訴數智前線,去年11月ChatGPT發布后,其展現出的全新的能力雖然對業界震撼很大,但方法上有跡可循。“通過源1.0+強化學習,我們很快趕上,也做出了類似ChatGPT這樣一套系統,在內部持續迭代和改進。”
“GPT-4發布后,我們重新審視了原來的方案,一直在思考一個問題,它到底通過什么樣的技術實現了非常強的基礎模型能力。”而這些思考都落在了11月27日浪潮信息最新發布的源2.0上。
“源2.0”不僅在數理邏輯、代碼生成、知識問答、中英文翻譯、理解和生成等方面有顯著的能力提升,還針對行業在算法、數據、算力方面的普遍痛點,提出了三項創新。
算法方面,源2.0提出并采用了一種新型的注意力算法結構:局部注意力過濾增強機制(LFA:Localized Filtering-based Attention)。
有別于傳統 Transformer“捕捉全局信息和長依賴信息能力”,LFA 具備“捕捉局部信息和短依賴信息能力”,使得模型更精準地掌握上下文之間的強語義關聯,學習到人類語言范式本質。
比如,“我想吃中國菜”這樣一句話輸入到模型中時,首先會進行分詞——我/想/吃/中國/菜/,而傳統Attention對這6個token將同等對待。但在自然語言中,“中國”和“菜”實際是有著更強的關系和局部依賴性的,LFA正是通過先學習相鄰詞之間的關聯性,再計算全局關聯性的方法,學到自然語言的這種局部和全局的語言特征,進而提升模型精度。
“我們對大模型結構的有效性進行了消融實驗,相比傳統注意力結構,LFA模型精度提高了3.53%。”吳韶華表示。在最終的模型訓練上,最大參數只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數的源1.0,訓練同樣大小Token數的Train Loss降低28%。而訓練的損失曲線越小,意味著大模型對于訓練集的特征學習得越好。
數據是另一個被重點提升的方面。劉軍告訴數智前線,原來大家粗放式經營的特征比較明顯,"好像給它足夠的數據,只要用算力不停去訓它,最后就能煉出金子來。”但煉金術其實也是需要有高品質的金礦才能練出純度更高的金子。
后來,大家都重視起了數據的清洗工作,但想要獲得高質量的數據集并不容易。比如源1.0,使用的數據絕大部分都來自于互聯網,浪潮信息為此采用了很多手段提純,才在800多TB數據中清洗出了一個5TB的高質量數據集。
尤其是高質量數學、代碼等數據的獲得上,難度還要更大。吳韶華透露,為了獲取中文數學數據,他們清洗了從2018年至今約12PB的互聯網數據,但僅獲取到約10GB的數學數據,且質量分析后依然不夠高,投入巨大,收益較小。
于是,此次推出的源2.0,在訓練數據來源、數據增強和合成方法方面都進行了創新。一方面,通過引入大量中英文書籍、百科、論文等高質量中英文資料,降低了互聯網語料內容占比;另一方面,用大型語言模型作為訓練數據生成器,在每個類別上提升數據質量,獲取了一批高質量的數學與代碼預訓練數據。
而在算力方面,源2.0采用非均勻流水并行的方法,綜合運用流水線并行+優化器參數并行+數據并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題,以此降低了大模型對節點內芯片間通信帶寬的需求,讓其在硬件差異較大的訓練環境中也能實現高性能訓練。
“相當于給你一條高速公路時,能跑到每公里200公里的時速,但給你一條羊腸小道,也能跑起來,并把最終的結果跑到。”劉軍解釋說。
浪潮信息在算法、數據、算力上的創新,直接推動了源2.0在代碼、數學、事實問答方面的能力提升。據介紹,后續的源2.5、源3.0等,依然還將從算法、數據幾個角度入手。
實際是,不僅僅是浪潮信息,其他一些底層大模型廠商們,也都在持續迭代和升級自己的基礎大模型能力。
10月,百度發布文心大模型4.0,宣布實現了基礎模型的全面升級。而后不久,阿里透露,即將開源 720 億參數大模型。
這在不少業內人士看來,是一種好的發展趨勢。畢竟,產業要健康發展,不能只有一家公司擁有領先的能力,而是需要整個產業能百花齊放。
“對于用戶來說,是不是最后就變成只有一家贏呢?其實不是這樣的,我們認為,未來的生成式AI,會是一個多元化的生態,每個模型可能都有它最擅長的能力,那么大家加起來就是一個非常棒的能力集合。”劉軍告訴數智前線,將來行業用戶最終去部署的時候,可能會有不同的模型在后面在做支撐,而這些都是基礎大模型的力量。
03
從硬件到更大市場
隨著大模型在各行各業的持續滲透和深入,企業對大模型廠商提出的需求,已經不僅僅局限于大模型本身的能力,也在迅速擴展到模型訓練經驗、優質數據集,以及如何解決算力效率、存儲、網絡等方方面面的問題。
“我們的算法工程師和實施工程師比我們的服務器還搶手,他們出差去跟各家的交流,都排得非常滿。”一位浪潮信息的人士告訴數智前線。作為國內最大的AI服務器提供商,同時也是國內最早進行基礎大模型建設的廠商之一,浪潮信息在今年大模型的風潮起來后,接到了大量客戶關于模型預訓練、數據處理、架構調優等方面的需求。
比如浪潮信息從866TB海量數據中清洗出了5TB的高質量中文共享數據集。劉軍透露,據不完全統計,目前國內大模型中,已有超過50家使用了浪潮信息的開源數據集。另外,浪潮信息在模型快速收斂、效率提高上的經驗和方法,也受到廣泛關注。
模型訓練效率的提升則是更大的一個話題,直接關系到巨大的成本問題。尤其是在GPU短缺的大背景下,如何將有效地將算力用好,是每家企業都要面臨的挑戰。
在今年8月那場集結了20多位國內大模型“頂流”創業者的西溪論道閉門會上,李開復就曾表示,很快大家就會發現,做過大模型 Infra (硬件底層)的人比做大模型的人還要貴、更稀缺,而會做 Scaling Law(擴展定律,模型能力隨著訓練計算量增加而提升)的人比會做大模型 Infra 的人更稀缺。
客戶愈加復雜的需求,正在促使大量的大模型廠商,尤其是實力雄厚的大廠們,開始不斷在角色和業務上加速轉變和拓展。人工智能產業鏈上,各種跨界動作也愈發頻繁,業界有著“軟件企業向下,硬件企業向上”的現象。
可以看到,此前,百度、騰訊、阿里等多家大模型廠商,都向用戶提供了大模型相關的工具鏈。一些大廠,也在加快切入用戶更新的一些需求。比如,騰訊云面向大模型時代的新需求,在今年7月發布了AI原生向量庫,最近又宣布將向量數據庫檢索規模從十億升級至千億級別。京東云則看到了大模型用戶在存儲方面遇到的新挑戰,正在加大相關的業務投入。
浪潮信息對自己的角色定位也在發生改變。劉軍坦言,“我們越來越不認為自己是個硬件廠商,如何把硬件這個生意轉化成更大的生產力,我們必須去理解客戶的應用需求和痛點,這也要求浪潮信息不僅僅是硬件,在系統、軟件、算法上,也都要非常強的團隊和能力。”
劉軍表示,浪潮信息目前在大模型上的核心思路是,要發揮自身的優勢和對產業的理解,建立一個強大的基礎大模型,然后通過開源的方式,將做應用、做行業、做專業、做技能的工作,交給生態伙伴、行業客戶和開發者去完成,共同推動大模型的創新、使用和落地,而不是和大模型企業、軟件廠商去競爭。
為此,8月24日,浪潮信息正式發布了大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”。這是一套基于浪潮信息過往積累的大模型的工程經驗、服務客戶的經驗等,打造的面向生成式AI開發與應用場景的全棧軟件,涉及從集群系統環境部署到算力調度保障再到大模型開發管理。
OGAI一共分為五層,各層對應不同的應用場景,每層間是解耦的,用戶需要哪些工具,就可以調用哪些。其中,從 L0 到 L2主要針對的是大模型基礎算力環境的效率提升。L3和L4則分別為大模型訓練層和多模型納管層,提供的功能類似互聯網企業的工具鏈,不同的是,OGAI可以為企業提供本地化和私有化部署。
數智前線獲悉,目前,浪潮信息在幫助合作伙伴和客戶更好地進行大模型的訓練和應用上,已經有了不少實踐。
比如,某互聯網企業在使用AI集群,對面向推薦場景的大模型進行訓練時,遇到了模型數據不能及時從存儲讀取,導致GPU空閑和訓練性能低下的問題,企業內的算法團隊用了幾個月也沒能攻克。
浪潮信息的AI團隊介入后,發現在其場景中,大模型對數據讀取IO的需求遠超一般的AI模型訓練情況,從而導致針對普通模型訓練的服務器配置在推薦場景中出現了不適配的情況。針對這一特殊需求,浪潮信息團隊最終基于自身經驗,通過對CPU BIOS中的mps等多個選項配置進行對性的的修改優化,解決了這一問題。
網易伏羲則在浪潮信息提供的AI算力服務、高質量共享數據集等助力下,訓練出了110億參數的中文預訓練大模型“玉言”,并登頂中文語言理解權威測評基準CLUE分類任務榜單。
“未來,我們將重點圍繞開源社區來做建設,通過持續開源基礎大模型的形式,盡可能廣泛地賦能更多的用戶場景,擴展基礎模型的能力邊界。”吳韶華說。浪潮信息也將通過元腦生態,聯合國內眾多做大模型的左手伙伴,和面向行業的右手伙伴,一起推進大模型落地行業。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。