国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    LIama 4發布重奪開源第一!DeepSeek同等代碼能力但參數減一半,一張H100就能跑,還有兩萬億參數超大杯

    2025年04月07日 09:36:36 來源:量子位公眾號

      AI不過周末,硅谷也是如此。

      大周日的,Llama家族上新,一群LIama4就這么突然發布了。

      這是Meta首個基于MoE架構模型系列,目前共有三個款:

      Llama4Scout、Llama4Maverick、Llama4Behemoth。

      最后一個尚未推出,只是預告,但Meta已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”。

      詳細來看一些關鍵詞——

      Llama4Scout,16位專家的170億激活參數的多模態模型,單個***GPU可運行, 同類SOTA,并擁有10M上下文窗口

      Llama4Maverick,128位專家的170億激活參數多模態模型,擊敗GPT-4o和Gemini2.0Flash,與DeepSeek-V3同等代碼能力參數只要一半,主打與DeepSeek一樣的性價比,單個***主機即可運行。

      Llama4Behemoth:2萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過GPT-4.5、Claude Sonnet3.7和 Gemini2.0Pro。

      Meta官推激情表示,這些Llama4模型標志著Llama生態系統新時代——原生多模態AI創新的開始。

      與此同時,大模型競技場排名迎來一輪更新。

      此次發布的Llama4Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型;。

      而且跑分明確——超越DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型

      谷歌CEO劈柴哥第一時間發來賀電:

      AI世界,從不平淡!

      恭喜呀!前進吧,Llama4團隊!

      中杯、大杯首批亮相

      了解了Llama4家族全體成員后,我們先來見識一下首批發布的2個模型:

      中杯

      :Llama4Scout(偵查兵Llama4)。

      大杯

      :Llama4Maverick(特立獨行的Llama4)。

      兩者均已能在Llama官網和抱抱臉上下載。

      我們抓取并提煉出這倆模型的一些特點:

      Meta首批MoE架構模型

      這是Llama系列,第一批使用MoE(混合專家模型)構建的模型。

      中杯Llama4Scout有17B激活參數,擁有16個專家模型。

      大杯Llama4Maverick擁有17B激活參數,擁有128個專家模型。

      至于還沒和大家正式見面的超大杯Llama4Maverick,擁有288B激活參數,擁有16個專家模型。

      非常長————的上下文

      Llama4系列,均具有很長的上下文窗口。

      這一點主要體現在Meta公布的中杯Llama4Scout的詳細數據里:

      Llama4Scout提供了行業領先的100萬上下文窗口。

      經過預訓練和后訓練,Llama4Scout長度為256K,這使基本模型具有高級長度泛化能力。

      這個配置,讓它在廣泛的測評集上,比Gemma3、Gemini2.0Flash-Lite和Mistral3.1的結果更優秀。

      那么之前的Llama系列模型的上下文窗口情況呢?

      Llama1,上下文窗口為2k;

      Llama2,上下文窗口默認為4k,但可以通過微調等可以拓展到32k;

      Llama3,上下文窗口是8k,后來Llama3.1的長文本能力拓展到了128k。

      Meta官方博客中是這么寫的:

      (Llama4的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。

      原生多模態設計

      Llama4系列,開啟了Llama的原生多模態時代。

      而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。

      給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。

      不是我說,Llama終于長眼睛了!!!

      上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。

      比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。

      它會很快地把適用的工具圈出來:

      要認顏色+認小鳥,也沒在怕的:

      中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的tag。

      來看和Llama系列前作、Gemma3、Mistral3.1、Gemini2.0Flash-Lite的對比結果——

      可以看到,在各個測評集上的表現,Llama4Scout樣樣都是新SOTA

      語言天賦Max

      經過了預訓練和微調的Llama4,掌握全球12種語言,以此“方便全球開發者的部署”。

      比DeepSeek更狠的“AI模型拼多多”

      一定要跟大家分享的一個細節,Meta這次在模型API價格方面,下狠手了!

      先說結果:

      系列超大杯Llama4Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。

      更直觀地來看這張表格,真的狠過DeepSeek——從性能到價格各個緯度。

      要知道,超大杯Llama4Behemoth屬于是Llama4系列的教師模型。

      如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。

      288B激活參數,16個專家模型。

      最重要的是,它的總參數量高達2000B!

      在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能。

      當“最牛”和“最便宜”擺在一起的時候,試問哪位開發者會不心動?(doge)

      訓練細節

      用他們自己的話來說,Llama系列是進行了徹底的重新設計。目前第一組LIama4系列模型,他們也公布了具體的訓練細節。

      預訓練

      他們首次使用混合專家MoE架構,在MoE架構中,單個token僅激活總參數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率,固定訓練FLOP成本情況下質量更高。

      比如,Llama4Maverick模型有17B個激活參數和400B個總參數。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。

      MoE層使用128位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及128位路由(Routed)專家之一。

      因此,雖然所有參數都存儲在內存中,但在為這些模型提供服務時,只有總參數的子集被激活。

      這通過降低模型服務成本和延遲來提高推理效率——Llama4Maverick 可以在單個***DGX主機上運行,以便于部署,也可以通過分布式推理實現最高效率。

      他們早期融合,將文本和視覺token無縫集成到統一模型中。

      他們開發了一種新的訓練技術:MetaP,可以設置關鍵模型超參數,比如每層的學習率和初始化尺度。

      結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練token的不同值之間很好地擴展和泛化——

      Llama4通過在200種語言(包括100多種語言,每種語言有超過10億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是Llama3的10倍。

      此外,他們使用FP8精度進行高效模型訓練,同時不犧牲質量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預訓練 Llama4Behemoth模型時,結果他們實現了390TFLOPs/GPU。

      用于訓練的整體混合數據包括30多萬億個token,是Llama3預訓練混合物的兩倍多,其中包括各種文本、圖像和視頻數據集。

      在所謂的“中期訓練”中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。

      后訓練

      后訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。

      在Llama4中,采用了一種不同的方法來改造我們的后期訓練管道:

      輕量級監督微調(SFT)>在線強化學習(RL)>輕量級直接偏好優化 (DPO)。

      一個關鍵的教訓是,SFT和DPO可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領域。

      為了解決這個問題,他們使用Llama模型作為評判標準,刪除了50%以上被標記為簡單的數據,并對剩余的較難數據集進行了輕量級SFT處理。

      在隨后的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。

      此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。

      然后,他們采用輕量級DPO來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線RL策略,最后造就了現在的LIama4。

      總結來看,Llama4架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。

      這些他們稱之為iRoPE架構,其中“i”代表 “交錯 ”注意力層,突出了支持 “無限”上下文長度的長期目標,而 “RoPE ”指的是大多數層中采用的旋轉位置嵌入。

      Llama4Behemoth

      最后,他們還透露了超大模型Llama4Behemoth一些蒸餾和訓練細節。

      我們開發了一種新穎的蒸餾損失函數,可通過訓練動態加權軟目標和硬目標。

      預訓練階段,Llama4Behemoth的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在Behemoth模型上運行前向傳遞,以創建蒸餾目標。

      后訓練階段,為了最大限度地提高性能,他們刪減了95%的SFT數據,而小型模型只需刪減50%的數據,以實現對質量和效率的必要關注。

      他們在進行輕量級SFT后,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。

      強化學習方法側重于通過對策略模型進行pass@k分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。

      此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最后,從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。

      由于其規?涨,要為兩萬億個參數模型擴展RL,還需要改造底層RL基礎設施。

      他們優化了MoE并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線RL訓練框架,提高了靈活性。

      現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同GPU上,并根據計算速度在多個模型之間平衡資源。

      與前幾代產品相比,這一創新使訓練效率提高了約10倍。

      One More Thing

      要知道,由于昨天DeepSeek發了新論文,搞得奧特曼都坐不住了,趕緊出來發聲:

      計劃改變:我們可能在幾周之后先發布o3和o4-mini。

      GPT-5就在幾個月后啊~

      但,誰知道半路又殺出個Llama4?!

      前有猛虎,后有豺狼,OpenAI你真的得加油了……

      網友調侃道,當奧特曼一睜眼,看到Llama4來了,而且Llama4的成本比GPT-4.5降低了3個數量級后——

      他的狀態一定是醬嬸兒的:

      以及相比Llama,現在可能神秘低調的DeepSeek,可能不知道什么時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足,Llama也好GPT也好,基本成為平行參考了。

      太平洋這頭,已經開始落地應用和智能體了。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    椎名由奈av一区二区三区| 国产视频在线观看一区二区三区| 欧美日本在线视频中文字字幕| 国产精品久久久久久久美男| 加勒比色老久久爱综合网| 欧美华人在线视频| 欧美一二三区| 国产精品96久久久久久又黄又硬| 成人3d动漫一区二区三区91| 91久久久久久久久久| 国产精品国产三级国产普通话99| 久久本道综合色狠狠五月| 欧美最近摘花xxxx摘花| 一区二区三区高清| 欧美电影在线观看免费| 久久在线观看免费| 欧美日韩午夜在线| 亚洲大片精品永久免费| 99这里只有精品视频| 欧美综合视频| 久久99精品久久久久久欧洲站| 日韩中文一区二区三区| 成人激情在线| 色综合视频一区二区三区44| 国产一区二区三区在线观看免费视频| 9l亚洲国产成人精品一区二三| 成人天堂资源www在线| 欧美精品一区三区在线观看| 国产精品久久久久久久久果冻传媒| 欧美大码xxxx| 男女啪啪在线观看| 性欧美freesex顶级少妇| 97在线视频免费观看完整版| 亚洲欧美中日韩| 亚洲国产精品成人一区二区| 色爱av美腿丝袜综合粉嫩av| 亚洲欧美成人影院| 岛国精品在线观看| 在线观看免费视频综合| 久久综合色综合88| 欧美最猛性xxxxx免费| 粉嫩av一区二区三区免费野| 伊人成人在线视频| 蜜桃精品噜噜噜成人av| 亚洲国产电影| 国产精品久久久久久久久久99| 久久精品主播| 色婷婷综合成人av| 性xx色xx综合久久久xx| 日韩欧美在线综合网| 韩曰欧美视频免费观看| 亚洲图片欧美午夜| 小视频免费在线观看| 日本高清一区| 久久久久久国产精品免费无遮挡| 最新国产在线拍揄自揄视频| 粉嫩av一区二区三区免费野| 日本在线视频网| 不卡伊人av在线播放| 成人激情免费网站| 久久密一区二区三区| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 久久精品美女视频网站| 精品国产不卡| 97色伦亚洲国产| 狠狠色噜噜狠狠狠狠色吗综合| 久久亚洲二区三区| 成人性视频网站| 国产99久久久国产精品免费看| 91精品美女在线| 亚洲综合在线五月| 国产aⅴ精品一区二区四区| 亚洲精品ww久久久久久p站| 国产精品日韩精品| 久久精品国产2020观看福利| 日韩精品色哟哟| 欧美乱人伦中文字幕在线| 日av在线不卡| 国产丝袜在线播放| 国产成人精品免费| 国产高清一区在线观看| 欧美日韩国产首页| 久久99日本精品| 91大神xh98hx在线播放| 久久精品久久99精品久久| 成人全视频高清免费观看| 久久久久久久爱| 蜜臀久久久99精品久久久久久| 国产农村妇女精品一区二区| 亚洲精品v亚洲精品v日韩精品| 国产精品久久三| 欧美高清你懂得| 欧美一级日本a级v片| 激情黄产视频在线免费观看| 免费一区视频| 欧美日韩视频在线| 久久久伊人欧美| 日韩激情在线视频| 国产麻豆午夜三级精品| 国产a精品视频| 麻豆视频免费在线观看| 99re热视频精品| 中文字幕亚洲在线| 成+人+亚洲+综合天堂| 国产欧美久久久精品影院| 禁断一区二区三区在线| 国产精品国产三级国产专播精品人| 国产v综合v亚洲欧| 日韩av理论片| 日韩免费三级| 久久久国产在线视频| 91理论电影在线观看| 欧美男同视频网| 99久久99久久免费精品蜜臀| 亚洲欧美国产毛片在线| 国产精品黄网站| 欧美极品一区| 亚洲精品久久7777777| 国产亚洲成av人片在线观看桃| 久久久精品免费观看| 久久精品日产第一区二区三区乱码| 欧美日韩视频免费观看| 91视频88av| 中文字幕一区二区5566日韩| 亚洲另类春色校园小说| 日本不卡高清视频| 风间由美一区| 国产精品素人一区二区| 免费精品99久久国产综合精品| 国产成人亚洲综合青青| 精品美女被调教视频大全网站| 亚洲国产综合在线看不卡| 欧美一级二级三级蜜桃| 久久精品午夜一区二区福利| 亚洲成av人片在线观看香蕉| www.成人网.com| 麻豆91在线播放免费| 午夜精品久久久久久久久| 成入视频在线观看| 在线免费观看成人短视频| 国产精品久久毛片a| 日本网站在线免费观看视频| 国产精品露脸自拍| 久久国产日韩欧美| 亚洲图片制服诱惑| 欧美韩日亚洲| 国产在线看片免费视频在线观看| 香蕉一区二区| 亚洲女同同性videoxma| 鲁丝片一区二区三区| 亚洲一区二区久久久久久久| 日本欧美黄网站| 国产免费区一区二区三视频免费| 欧美高清在线一区二区| 欧美 日韩 国产 一区| 麻豆精品在线看| 久久久综合九色合综国产精品| 中文字幕乱码日本亚洲一区二区| 久久不射中文字幕| 在线视频亚洲欧美| 国产不卡一区| 91在线一区二区三区| 亚洲免费观看视频| 久久久久久欧美精品色一二三四|