国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

聯想motoX70Air云上舞白冰鉆限定版AI手機即將上市 自帶14顆手工精鑲冰鉆 超奢華只有紅魔還在做24+1TB 姜超:成本暴增 友商一臺都沒有英特爾®至強® D處理器:賦能智能網卡,破解算力-網絡協同瓶頸豐田全新超跑GR GT發布:配641馬力大V8商家仿冒心系天下W26 老機當新機賣!中國電信回應告別“人海戰術”!陳天橋:未來公司值多少錢,不看人數看“認知”“卷”不動了?讓AI銷售團隊替你卷!百度商家智能體升級片來了卡薩帝冰箱亮相廣州設計周亞馬遜云科技推出Amazon Graviton5----迄今性能最強、能效最高的自研CPU第八屆“綻放杯”圓滿落幕,華為助力千行百業5G應用“全面綻放”機構:2025年第三季度中國PC市場同比增長2%火山引擎發布豆包語音識別模型2.0提升多語種識別精度現代汽車推出 AI 驅動的 MobED 機器人,2026年上市Vidu發布 Q2“生圖全家桶”:4K 生圖 + 圖像編輯 + 圖轉視頻,全都免費用中國新勢力首家!理想汽車累計交付突破150萬輛瑞典Oceanbird Wing 560翼帆開放訂購,2026量產在即,加速布局中國市場賦能綠色航運億邦智庫第七次《產業互聯網發展報告》重磅發布一加Ace 6T首銷10分鐘賣爆!打破今年同檔機型全天銷售紀錄魯大師11月電動兩輪車榜:潮玩思路重塑市場,九號領跑智能化豆包手機助手宣布部分調整AI操作手機能力
  • 首頁 > 云計算頻道 > 大模型

    只激活3.8B參數,性能比肩同款7B模型!訓練微調都能用,來自微軟

    2024年07月18日 14:29:55 來源:量子位公眾號

      只需激活60%的參數,就能實現與全激活稠密模型相當的性能。

      微軟亞洲研究院的一項新研究,實現了模型的完全稀疏激活,讓推理成本大幅下降。

      而且適用范圍廣泛,無論是從頭訓練、繼續訓練還是微調,都能提供有效支持。

      該方法名為Q-Sparse,在神經元級別上實現了模型稀疏化,相比于其他方式粒度更細,在相同推理開銷下,無論性能還是稀疏率都更好。

      名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術,適用于各種量化方式的模型。

      作者進一步表示,如果把Q-Sparse與模型量化技術結合,還可以實現更大程度的降本增效。

      另外在研究Q-Sparse的同時,團隊也對參數規模、稀疏率和模型性能三者之間的關系進行了深入探尋,并發現了適用于模型推理優化的“Scaling Law”。

      有網友認為,這項技術確實不錯,而且比ReLU要更好。

      還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達更快支持這項技術就好了。

      用Top-K函數實現稀疏化

      Q-Sparse所做的最核心的操作,是對輸入的張量應用Top-K稀疏化函數

      具體來說,Transformer架構在注意力層和前饋層中都使用nn.Linear線性層(矩陣乘法)進行投影,可以表示為Y=X·W^T。(其中X就是輸入張量,W代表其權重,Y為輸出張量)

      Q-Sparse中,對于一個輸入激活張量X,首先會計算其絕對值|X|并進行排序,找出其中絕對值最大的K個元素。

      這里的K是預先設定的超參數,決定了稀疏化的程度。

      之后Q-Sparse會創建一個與X形狀相同的二進制掩碼張量M,對于一系列|X|中絕對值最大的K個元素對應的位置,將M中的相應位置設置為1,其余位置設置為0。

      接著,將輸入張量X與掩碼張量M進行Hadamard積(逐元素相乘)運算,就得到了稀疏化的張量X_sparse

      在前向傳播過程中,稀疏化后的張量X_sparse將代替原始的輸入張量X參與后續的計算(如矩陣乘法)。

      由于X_sparse中大部分元素已經被設置為零,因此可以顯著減少計算量和內存帶寬需求。

      在反向傳播過程中,Q-Sparse使用了直通估計器(Straight-Through Estimator,STE)來計算Top-K函數的梯度。

      傳統的訓練方式中,通常需要計算損失函數對網絡參數的梯度,并使用梯度下降法更新參數以最小化損失。

      但當網絡中存在量化、Top-K等一些不可微的操作時,梯度的計算就會遇到問題,因為這些操作的輸出對輸入的梯度在大多數點上都是0,導致梯度無法有效傳播。

      STE通過直接將梯度傳遞給稀疏化之前的張量,避免了梯度消失的問題。

      一般的反向傳播中,損失函數L對x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x,但由于不可微分無法直接計算。

      STE的解決方案是只計算損失函數對稀疏化張量y的梯度,然后將其直接復制給原始張量x,也就是直接將∂L/∂y作為∂L/∂x的估計。

      有/無STE時的梯度比較

      對于前饋層,Q-Sparse使用平方ReLU函數代替常規的ReLU激活函數,平方運算可以進一步提高激活的稀疏性(⊙表示Hadamard積)。

      另外,為了適配量化模型,Q-Sparse在應用Top-K稀疏化之前,會先對輸入張量進行量化,以確保稀疏化操作與量化表示兼容,其函數表示如下:

      其中,ε是一個小常數,用于避免出現分母為零的情況。

      特別的,對于1-bit量化的權重,Q-Sparse使用以下量化函數,其中α是權重張量W的平均絕對值。

      60%激活參數達到相同效果

      對比實驗表明,無論是稀疏率還是模型表現,Q-Sparse都顯著優于此前的ReLU方法。

      針對Q-Sparse的具體效果,作者對其在從頭訓練、繼續訓練和微調三項任務上的性能進行了評估。

      從頭訓練實驗使用的模型為Llama,結果在700M和7B模型上,使用70% top-K(即40%的整體稀疏率)的Q-Sparse可以達到與密集baseline相當的訓練損失。

      繼續訓練的目的是將稠密模型稀疏化,這里的實驗對象是Mistral-7B。

      結果,在激活參數為2.9B和3.8B的情況下,模型在ARC、MMLU等數據集中的得分均未發生明顯下降。

      在微調實驗中,對于Qwen-7B和Mistral-7B兩種模型,Q-Sparse顯示出了與繼續訓練相似的結果,用60%左右的激活參數實現了與密集模型十分接近的表現。

      這些結果意味著,在相同的性能下,與密集模型相比,稀疏激活模型在推理過程中可以顯著減少激活參數,進而降低消耗FLOPS的數量。

      對于量化模型,團隊在自研的BitNet b1.58模型上應用了Q-Sparse,并在多個數據集上進行了訓練和評估。

      可以看到,在700M和7B兩種規模下,使用Q-Sparse的量化模型的收斂速度和最終損失函數值與未使用Q-Sparse的量化模型(BitNet b1.58)相當。

      這說明Q-Sparse可以無縫集成到量化模型中,而不會顯著影響模型的訓練和收斂。

      據此作者認為,將Q-Sparse與量化技術相結合,可以進一步提高大語言模型在推理階段的效率。

      發現推理優化新“Scaling Law”

      除了測評這些模型采取稀疏激活時的表現,作者也對模型性能、規模和稀疏率三者之間的關系進行了探究,并有了一些新的發現。

      稀疏激活模型的性能縮放定律: 作者發現,與密集模型類似,稀疏激活模型的性能也遵循一個冪律縮放關系。

      具體來說,給定稀疏率S,模型在收斂時的損失函數值L(N,S)可以用以下公式近似:

      其中,N是模型參數的數量;E是一個常數,表示模型在無限大時的損失;A(S)是一個與稀疏率S有關的縮放因子。

      這個縮放定律表明,稀疏激活模型的性能隨著模型規模的增大而提高,但提高的速度會逐漸變慢。

      同時作者發現,模型的性能也會受到稀疏率的影響。

      在參數規模與性能之間關系的部分提到,A(S)是一個與稀疏率S有關的縮放因子,可以用以下公式近似:

      其中B和C是常數,β是一個控制指數衰減速度的參數。

      這個公式表明,當稀疏率S增大(模型變得更稀疏)時,意味著更高的稀疏率會導致性能的下降,下降的速度是指數級的。

      基于上述發現,作者得出了一個推理最優的稀疏率S*,能在預算(推理時的浮點操作數)一定時,實現模型損失函數值的最小化。

      對于全精度(FP32)模型,最優稀疏率約為45.58%;而低精度(如1.58-bit)模型的最優稀疏率則更高,約為61.25%。

      作者觀察到,隨著模型規模的增大,稀疏激活模型與密集模型之間的性能差距逐漸縮小。

      這可以從縮放定律中得到解釋:當模型規模N趨于無窮大時,稀疏激活模型的損失函數值趨于L(∞,S)=E,而密集模型的損失函數值趨于L(∞,0)=E。

      這意味著,在極大規模下,稀疏激活模型有可能達到與密集模型相當的性能,為設計和訓練大規模稀疏激活模型提供了一個有用的參考。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    亚洲精品一区二区三区av| 中文字幕亚洲一区二区va在线| 国产手机视频一区二区| 亚洲男女毛片无遮挡| 亚洲欧美日本国产专区一区| 国模gogo一区二区大胆私拍| 2020国产精品极品色在线观看| 日韩美女视频中文字幕| 波多视频一区| 亚洲精品国产无天堂网2021| 久久艹在线视频| 快射av在线播放一区| 亚洲性夜色噜噜噜7777| 成人免费视频97| 99久精品视频在线观看视频| 亚洲国产精品欧美一二99| 六月天综合网| 欧美国产综合| 欧美日韩电影在线观看| 欧美欧美全黄| 国产欧美va欧美va香蕉在| 中国av在线播放| 国产成人综合精品| 国产精品xxx在线观看www| 色哦色哦哦色天天综合| 日本成人在线电影网| 51精品国自产在线| 免费a在线看| 国产免费一区二区三区在线能观看| 91tv亚洲精品香蕉国产一区| 在线看国产一区| 亚洲免费精彩视频| 国产精品天干天干在线综合| 久久久久久国产三级电影| 91成人在线播放| 亚洲电影一二三区| 日韩漫画puputoon| 久久精品视频在线免费观看| 91ph在线| 粉嫩一区二区三区性色av| 久久影院午夜论| 久久综合九色综合97婷婷女人| 久久嫩草精品久久久精品| 相泽南亚洲一区二区在线播放| 日韩精品中文字幕一区二区| 疯狂蹂躏欧美一区二区精品| 国产精品2区| 国产免费区一区二区三视频免费| 一色屋精品亚洲香蕉网站| 1区2区在线观看| 浪潮av一区| 国产日韩欧美综合| 国产成人精品视| 91超碰国产精品| 久久久久免费精品国产| 亚洲专区**| 9i在线看片成人免费| 欧美日韩国产高清一区| 国产成人av毛片| 日韩中文字幕精品视频| 综合久久国产九一剧情麻豆| 国产aⅴ综合色| 国产精品1区2区| 精品毛片乱码1区2区3区| 国产精品zjzjzj在线观看| 日本不卡一区二区三区视频| 欧美在线999| 欧美在线视频免费观看| 精品国产一区二区三区不卡蜜臂| 日韩亚洲欧美中文在线| 欧美国产日本高清在线| 91久久视频| 91国产视频在线观看| 福利一区二区三区视频在线观看| 亚洲尤物精选| www免费在线观看| 欧美日一区二区在线观看| 99精品电影| 精品1区2区| 91在线视频观看| 日本亚洲欧美成人| www.日韩av| 日韩一区av在线| 国产羞羞视频在线播放| 久久国产精品99国产| 快播电影网址老女人久久| 国产精品亚洲一区二区在线观看| 牛夜精品久久久久久久99黑人| 一区二区三区.www| 国产精品色婷婷视频| 欧美日韩aaaaa| 亚洲午夜av| 精品一卡二卡三卡四卡日本乱码| 成人在线免费公开观看视频| 99久久99精品久久久久久| 久久久久久久久久久网站| 久久精视频免费在线久久完整在线看| 日韩精品小视频| 日韩经典中文字幕在线观看| 91美女片黄在线| 性xxxxfreexxxxx欧美丶| 蜜桃视频在线观看成人| 在线播放国产精品| 欧美日韩精品免费观看视频| 欧美天堂一区二区三区| 欧美日韩中文字幕在线| 久久久久国产一区二区| 亚洲日本成人网| 亚洲深夜福利在线| 亚洲一区二区小说| 啪啪亚洲精品| 精品成人18| 97高清免费视频| 538在线视频| 欧美另类极品videosbestfree| 精品一区二区三区免费看| 激情欧美亚洲| 日韩欧亚中文在线| 成人福利影视| 久久狠狠一本精品综合网| 先锋影音网一区二区| 91麻豆国产福利在线观看| 日韩视频1区| www.精品| 久久电影网站中文字幕| 综合自拍亚洲综合图不卡区| 国产成人在线视频网址| 一区二区三区四区精品在线视频| 喷水一区二区三区| 黄在线免费观看| 亚洲精品欧美二区三区中文字幕| 欧美视频不卡中文| 鲁大师影院一区二区三区| 国产精品一区二区视频| 国产欧美一区二区精品婷婷| 欧美激情99| 日日av拍夜夜添久久免费| 国产极品久久久久久久久波多结野| 国产精品入口尤物| 日韩一区二区三区视频在线观看| 日韩国产精品一区二区| 超碰一区二区| 亚洲精品国产精品国产自| 麻豆精品在线视频| 国产亚洲精品久久久久久牛牛| 天天精品视频| 日av在线播放中文不卡| 久久福利精品| 成人写真视频福利网| 欧美另类一区二区三区| 成人做爰69片免费看网站| 激情综合网址| 色女人在线视频| 欧美黄色激情| 美女网站视频一区| 1区2区3区在线视频| 97精品在线观看| 日韩三级视频在线看| 日韩欧美二区| 一区二区中文字幕在线观看| 国产精品一区二区三区观看| 欧美日韩一区小说| 成人ar影院免费观看视频| 男女免费观看在线爽爽爽视频|