国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

空調產業生態的另一面 中小企業迷局何解?海信洗衣機接入日本量販巨頭Edion 日本智能家居普及率僅為13%全球首發天璣8500!REDMI Turbo 5系列陸續備案史上最薄Mate!華為Mate 70 Air要用等深四曲屏、最高16GB內存Adobe Indigo相機應用更新 初步支持iPhone 17系列夏普海外推出 XP-A175U 旗艦投影儀,提供 17000 流明亮度聯想旗下摩托羅拉“卷軸拉伸屏”智能手表專利曝光三星推出全新P9 Express固態存儲卡 為次世代游戲與專業創意工作而生追覓進入智能戒指市場,推出首款產品 Dreame Ring金山辦公 2025 年第三季度營收 15.21 億元,同比增長 25.33%影石創新:第三季度營收 29.4 億元,同比增長 92.64%挑戰英偉達,高通發布 AI200 和 AI250 人工智能芯片一加 15丨Ace 6 雙艦齊發,「性能 Ultra」一加 15 售價 3999 元起學術磁場:頂尖科學家論壇賦能腦疾病學術研討!2025WLF臨港·腦疾病大會順利閉幕零代碼上手即用!智元推出機器人內容創作平臺“靈創”Intel進軍ASIC定制服務市場 幾乎放棄AI!三大原因防止與固態電池混淆 知情人士:半固態電池將更名為固液電池NVIDIA N1筆記本CPU新消息:2026年年中推出!外星人先用首款海外商用手機eSIM中國芯!紫光同芯斬獲GSMA認證華為、vivo、OPPO等合作撰寫!中國快充方案成為全球標準:在國際電信聯盟發布
  • 首頁 > 云計算頻道 > 大模型

    北大開源aiXcoder-7B最強代碼大模型,企業部署最佳選擇

    2024年04月10日 16:17:49 來源:機器之心公眾號

      當下,大語言模型集成至編程領域、完成代碼生成與補全任務成為重要趨勢。業界已經出現了一批引人矚目的代碼大模型,比如 OpenAI 的 CodeX、谷歌 DeepMind 的 AlphaCode、HuggingFace 的 StarCoder,幫助程序員更迅捷、更準確、更高質量地完成編碼任務,大幅提升效率。

      有這樣一支研發團隊,在10年前便開始了將深度學習用于軟件開發的探索,并在代碼理解和代碼生成領域雙雙全球領先。他們就是來自北京大學軟件工程研究所的 aiXcoder 團隊(簡稱 aiXcoder 團隊),此次為開發者帶來了新的高效編碼利器。

      4月9日,該團隊開源了全自研 aiXcoder7B 代碼大模型,不僅在代碼生成和補全任務中大幅領先同量級甚至超越15B、34B 參數量級的代碼大模型;還憑借其在個性化訓練、私有化部署、定制化開發方面的獨有優勢,成為最適合企業應用、最能滿足個性化開發需求的代碼大模型。

      aiXcoder7B 的全部模型參數和推理代碼均已開源,可以通過 GitHub、Hugging Face、Gitee 和 GitLink 等平臺訪問。

      「耳聽為虛眼見為實」,一切還是要用真實的測評數據和實際的任務效果說話。

      越級體驗

      能其他代碼大模型所不能

      一個代碼大模型究竟好不好用, 當然要在對程序員最有幫助、用的最多的代碼生成與補全任務中來驗證。

      先看代碼生成比較結果,在 OpenAI HumanEval(由164道 Python 編程問題組成)、谷歌 MBPP(由974個 Python 編程問題組成)和 HuggingFace MultiPL-E(包含了18種編程語言)等代碼生成效果評估測試集上,aiXcoder7B 版的準確率遠超當前主流代碼大模型,成為十億乃至百億級參數中最強。

      除了在 HumanEval 這樣偏向非真實開發場景的測試集上取得準確率新 SOTA,aiXcoder7B在代碼補全等真實開發場景中的表現更是可圈可點,比如寫好上文讓代碼大模型補下文或者跨文件引用已經定義好的方法、函數、類等。

      同樣用數據說話,在考慮上下文的單行補全測評集 SantaCoder 上,aiXcoder7B Base 版在與 StarCoder2、CodeLlama7B/13B、DeepSeekCoder7B 等主流同量級開源模型的較量中取得最佳效果,成為最適合實際編程場景的代碼補全基礎模型。具體如下表所示:

      aiXcoder7B Base 版的補全效果最好,不單單是準確率更高,還在實際運行中表現出了其他代碼大模型沒有或者遜于自己的能力。實現這些的背后是一系列針對代碼特性的創新訓練方法,正是它們使得 aiXcoder7B Base 版脫穎而出。

      首先,aiXcoder7B Base 版在預訓練時提供了32k 的上下文長度,這在現有7B 參數量級代碼大模型中為最大,其他多為16k。不僅如此,通過插值的方法可以直接在推理時將上下文長度擴展到256k,并在理論上有能力擴展至更長。

      在同量級模型中擁有最大預訓練上下文長度,并可彈性擴展,成為提升 aiXcoder7B Base 版代碼補全效果的重要基礎。

      其次,aiXcoder7B Base 版在代碼補全過程中「知道」用戶什么時候需要生成代碼,并在代碼內容已經完整不需要再生成時自動停止。這成為該模型比較獨特的功能,其他很多代碼大模型無法做到這一點。

      aiXcoder 團隊表示,該功能在技術上的實現離不開結構化 Span 技術。在模型訓練中,通過結構化 Span 技術來構建訓練數據和相關任務,讓模型學習到用戶應該在什么時候生成代碼或者補全的內容在語法和語義結構上是否完整。

      這也就意味著 aiXcoder7B Base 版能自動「知道」自己推理到了什么位置,而其他模型想要終止的話,需要人為設定終止條件。自動推理則少了這種麻煩,有助于提升工作效率。

      此外,在 aiXcoder 擴展基準測試集(aiXcoder Bench)上,aiXcoder7B Base 版表現出了相較于其他代碼大模型的又一大亮點,即傾向于使用較短代碼來完成用戶指定的任務。

      詳細結果如下表所示,在針對 Java、C++、JavaScript 和 Python 編程語言的代碼補全測評時,aiXcoder7B Base 不僅效果最好,四處紅框圈出的生成答案長度明顯短于其他競品模型,并且非常接近甚至有時比標準答案(Ref)還要短。

      aiXcoder 團隊指出,這一后驗發現仍離不開結構化 Span 技術。他們在整個訓練過程中特別注重代碼結構,而結構化 Span 按照代碼結構對代碼進行拆分,這更有益于體現代碼的語義,最終促成了模型「短」答案的同時效果又占優。

      除了在以上單文件上下文代碼補全任務中的卓越表現,aiXcoder7B Base 版在跨多文件補全場景中的表現同樣更勝一籌,不僅針對多文件的編程效果提升最優,還在下表 CrossCodeEval 測評集上有了一個重要發現。

      據 aiXcoder 團隊介紹,該模型在只通過光標上文搜索到的結果作為 prompt(只看當前編寫的上文),同時其他模型拿 GroundTruth(把包含答案的文件給到這些模型)搜索到的結果作為 prompt,在這種條件下,前者的效果依然要強于后者。

      如何做到的呢?對于其他模型來說,即使有更多的上下文信息,它們也搞不清楚哪些是最核心、最關鍵的。而 aiXcoder7B Base 版能從上下文檔中揀出對當前編寫代碼最有效、最核心的上下文細節,所以才有好的效果。

      這里感知到哪些信息最有效最為關鍵,通過對上下文進一步信息處理,結合文件相關內容的聚類、代碼 Calling Graph 來構建多文件之間的相互注意力關系,進而獲取到對當前補全或生成任務最關鍵的信息。

      所有這些創新性訓練方法很大程度上決定了 aiXcoder7B Base 版能夠在眾多代碼大模型的比拼中勝出。此外,1.2T 的高質量訓練數據同樣功不可沒,這一量級不僅在同類型模型中最大,還是獨有 token 數據。

      其中600G 優先放入的高質量數據對模型效果起了重要作用,其他數據主要來自 GitHub,以及 Stack Overflow、Gitee 等,自然語言部分還包括了一部分 CSDN 數據,并且全部數據進行了過濾處理。

      Talk is cheap, Show me the code

      顯然,aiXcoder7B Base 版在測評數據上贏了其他代碼大模型,但究竟能不能高效地幫助開發者完成編碼任務?還是要看實戰效果。

      先看生成能力,對于前端開發,aiXcoder7B Base 版可以通過注釋快速地生成對應網頁:

      還可以處理高難度算法題,比如經典的分糖果問題,通過貪心的策略,以左右兩次遍歷的方式得到最少糖果數。

      再來看 aiXcoder7B Base 版更得心應手的代碼補全場景,比如長上下文補全。這里用多個工具函數拼成1500多行的代碼,要求模型在文件末端進行注釋補全,模型識別到了文件頂部的相關函數,并成功地結合函數信息補全了相關方法:

      還有以下跨文件補全任務,在樹結構上應用動態規劃來實現編輯距離搜索。模型補全的代碼識別到了編輯距離的計算與另一個文件中滾動數組內部取最小值的計算之間的關系,并給出了正確的預測結果:

      當然還可以智能化匹配輸出長度。當用戶調整自己的采納內容時,模型能夠根據當前的采納情況自動調整補全長度:

      一句話,有了 aiXcoder7B Base 版代碼大模型,無論是代碼生成還是補全,程序員多了一個效率提升利器,節省時間,事半功倍。

      拼效果,更拼應用

      用核心競爭力成為企業首選

      我們已經看到,aiXcoder7B Base 版在代碼補全這樣的真實開發場景中充分展現了自身的硬實力。不過,對于企業客戶來說,代碼大模型只是效果好并不能完全打動他們。只有全方位滿足自身需求,企業客戶才會毫不猶豫地下手。

      aiXcoder7B Base 版正是奔著企業需要、解決他們的個性化需求來的。打造最適合企業應用的代碼大模型,成為了 aiXcoder7B Base 版的首要目標和有別于其他模型的又一核心優勢。

      當然,想要成為企業應用的最佳選擇并不容易,必須圍繞著企業業務場景、需求、所能承擔的成本等實際情況做深文章。aiXcoder 模型不僅這樣做了,而且做到了極致。

      簡而言之,為了實現企業級個性化的應用落地,aiXcoder 模型在私有化部署、個性化訓練和定制化開發三個方面齊發力,打造出了相較于其他代碼大模型的核心優勢。

      首先來看私有化部署。對于企業而言,代碼大模型在本地服務器的私有化部署和運行,首要考慮的是自身算力是否可以支撐。在這點上,aiXcoder 模型對企業 GPU 資源要求少,應用成本投入低,讓部署模型門檻大大降低。

      此外,不同企業擁有的軟硬件各異,既會有國產芯片,也會有國外如英偉達顯卡;诖耍琣iXcoder 模型進行針對性硬件適配以及進一步模型訓練和推理優化,比如在信息處理層面采用高速緩存技術,充分滿足多樣化部署要求。

      其次也是 aiXcoder 模型著重強調的個性化訓練。我們知道,企業的實際情況不能一概而論,而 aiXcoder 模型做到了見招拆招,提供了「一攬子」的個性化模型訓練解決方案。

      一方面構建企業專屬數據集和測評集,其中數據集構建基于企業代碼特征和員工編碼習慣,專門對代碼及相關文檔進行數據預處理;測評集構建則以真實開發場景為準繩,模擬并評估模型在實際應用中的預期效果。

      另一方面,將企業代碼這一內因與企業算力資源這一外因相結合,充分考慮到不同企業計算資源、代碼量的多寡,為他們提供靈活的個性化訓練及優化方案,最大化提升專屬代碼大模型的前期訓練效果和后續應用效果。

      第三是定制化開發。aiXcoder 模型瞄準不同行業和企業的實際情況,結合企業個性化需求來為他們提供靈活的定制化服務。憑借豐富和成熟的定制開發經驗,讓基于企業代碼和計算資源打造的模型高度契合實際需求,讓業務效率的提升看得見摸得著。目前,客戶已經遍布銀行、證券、保險、軍工、運營商、能源、交通等多個行業。

      可以看到,相較于其他代碼大模型,aiXcoder 能同時為企業提供個性化訓練的產品和服務,這在業內是唯一一個。

      背后團隊

      十年深耕、厚積薄發

      此次 aiXcoder7B Base 版代碼大模型展現出來的編碼能力,讓我們更加好奇模型背后的團隊。

      據了解,aiXcoder 團隊從2013年開始了基于深度學習的代碼分析研究,是全球最早將深度學習技術應用于代碼生成與代碼理解領域的團隊。

      十年來,團隊在 NeurIPS、ACL、IJCAI、ICSE、FSE、ASE 等頂會上發表相關論文100余篇,多篇論文被國際學者認為是「首創成果」并被廣泛引用,多次獲 ACM 杰出論文獎。

      2017年,aiXcoder 有了雛形,并在2018年正式發布 aiXcoder1.0,提供代碼自動補全與搜索功能。

      2021年4月,團隊推出完全自主知識產權的十億級參數代碼大模型 aiXcoder L 版,支持代碼補全和自然語言推薦。這也是國內⾸個基于「⼤模型」的智能編程商⽤產品。

      而后,團隊持續攻堅,2022年6月再次推出了國內首個支持方法級代碼生成的模型 aiXcoder XL 版,同樣具有完全自主知識產權。

      2023年8月,聚焦企業適配的 aiXcoder Europa 上線,可以根據企業的數據安全和算力要求,為他們提供私有化部署和個性化訓練服務,有效降低代碼大模型的應用門檻,提升開發效率。

      到了此次,aiXcoder 團隊開源 aiXcoder7B Base 版,將已經住考驗的全新代碼大模型帶給大家。一方面,該模型以7B 參數規模在代碼補全等真實開發場景中表現出的越級能力及其在企業適配方面的多項核心競爭力,有助于推動代碼大模型行業的整體進步。另一方面,該模型將對更廣泛的軟件開發自動化產生深遠的影響,在加速這一進程的同時為各行各業持續提升業務效率、變革生產方式保駕護航。

      不僅如此,相較于同樣具備代碼能力的通用模型,aiXcoder7B Base 版讓我們看到了專用代碼大模型更低訓練和推理成本、企業部署成本以及在企業項目級代碼上更好、更穩定效果的全方位優勢。

      目前,aiXcoder 已服務大量銀行、證券、保險、軍工、高科技、運營商、能源、交通等行業頭部客戶,深耕服務金融行業,其中與某行業知名券商的「代碼大模型在證券行業的應用實踐」項目榮獲2023AIIA 人工智能十大潛力應用案例、中國信通院 AI4SE 銀彈優秀案例等殊榮。

      同時,aiXcoder 也因其極具前瞻性的探索方向、踏踏實實的落地實踐,不斷受到資本市場的追捧,高瓴、清流、彬復等極具行業引領性的基金紛紛加注 aiXcoder 團隊,使其得以迅速成長!

      顯然,在未來 AIGC 的這場較量中,aiXcoder 團隊已經做好了準備。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    亚洲九九爱视频| 成人午夜免费电影| 成人精品国产免费网站| 丝袜情趣国产精品| 久久不射热爱视频精品| 精精国产xxxx视频在线中文版| 久久青草福利网站| 99精品国产99久久久久久白柏| 亚洲少妇中文在线| 亚洲视频免费在线| 国产精品aaa| 精品蜜桃一区二区三区| 91精品国产自产在线| 暧暧视频在线免费观看| 欧美午夜一区二区| 在线亚洲人成电影网站色www| 成人av影院在线观看| 亚洲成人av在线播放| 午夜伦欧美伦电影理论片| 成人18在线| 日韩一区二区在线看| 欧美天堂亚洲电影院在线播放| 国产三区在线观看| 日韩精品免费在线| 欧美丝袜丝交足nylons172| 日韩一区二区电影在线| 日本高清不卡一区二区三区视频| 999精品视频一区二区三区| 国产电影一区二区| 久久久久久久久爱| 乱亲女秽乱长久久久| 一本大道久久a久久精品综合| 日韩av免费在线| 国产精品一国产精品k频道56| 激情成人四房播| 91在线观看网站| 中文乱码免费一区二区三区下载| 九九九久久久精品| 91精品久久久久久久久99蜜臂| 岛国av免费在线观看| 日韩av电影在线播放| 91精品福利在线一区二区三区| 国产精品高颜值在线观看| 欧美美女一区二区三区| 亚洲专区中文字幕| 91成人app| 国产视频精品一区二区三区| 99久久精品费精品国产| 久久综合五月婷婷| 欧美电影在线观看一区| 欧美国产高潮xxxx1819| 国产免费一区二区三区在线观看| 日韩欧美亚洲另类制服综合在线| 国产精品成人观看视频免费| 欧美成人伊人久久综合网| 国产精品1区在线| 精品免费国产| 97视频在线观看播放| 日韩亚洲欧美中文高清在线| 日韩精品久久久久| 欧美自拍视频在线| 欧美在线免费观看| 欧美综合一区二区三区| bl在线肉h视频大尺度| 中文字幕在线免费| 婷婷六月综合| 在线免费观看视频一区| 色哟哟入口国产精品| 日本不卡电影| 丁香亚洲综合激情啪啪综合| 亚洲第一在线综合网站| 国产做受高潮69| 好吊妞国产欧美日韩免费观看网站| 久久久久国内| 色与欲影视天天看综合网| 波多野结衣亚洲一区| 亚洲人成网77777色在线播放| 狠狠色狠狠色综合人人| 国产在线观看精品| 3d蒂法精品啪啪一区二区免费| 亚洲高清一区二| 国产精品一区二区三区免费观看| 九九热精品视频在线播放| 91丨精品丨国产| 精品视频免费在线观看| 国产嫩草一区二区三区在线观看| 欧美激情国产日韩精品一区18| 国产欧美日韩电影| 日本成人精品在线| 国产精品第一区| 99久久er| 色婷婷亚洲一区二区三区| 国产精品一区二区三区乱码| 国产盗摄一区二区| 欧美××××黑人××性爽| 日韩美女视频免费看| 日韩午夜激情| 亚洲国产精品一区二区三区| 亚洲精品一区国产| 99re成人在线| 精品国产18久久久久久二百| 99成人在线| 精品国产伦一区二区三区观看方式| 久久国产精品亚洲77777| 亚洲人成精品久久久久| 雨宫琴音一区二区三区| 久久伊人91精品综合网站| 成人美女视频在线观看18| 91po在线观看91精品国产性色| 91精品尤物| 国产精品卡一卡二| 久久国产精品色av免费看| 久久嫩草精品久久久精品| 色777狠狠狠综合伊人| 精品捆绑美女sm三区| 亚洲精品小区久久久久久| 任我爽在线视频精品一| 亚洲女同同性videoxma| 在线观看午夜av| 91精品久久久久久综合五月天| 国产欧美va欧美va香蕉在| 欧美日韩成人在线视频| 国产免费拔擦拔擦8x在线播放| 九九热精品视频| 欧美xxxx黑人又粗又长精品| 日韩大陆欧美高清视频区| 亚洲精品国精品久久99热| 国产欧美精品区一区二区三区| 国产主播一区二区三区| 亚洲视频1区2区| 色综合久久久久综合一本到桃花网| 亚洲理论电影网| 黑丝美女一区二区| 亚洲xxxx视频| 欧美亚洲综合久久| 国产伊人精品| 日韩美女视频中文字幕| 亚洲一区二区综合| 精品国产乱码久久久久久108| 亚洲男人天堂古典| 日本福利一区二区| 国产精品vip| 日本a人精品| 国产精品国产三级国产aⅴ浪潮| 色婷婷综合久久久久中文字幕1| 日本一区二区三区四区在线观看| 中文日产幕无线码一区二区| 欧美亚洲国产日本| 人人超在线公开视频| 巨大荫蒂视频欧美大片| 成人日韩在线观看| 国内外成人免费视频| 成人ww免费完整版在线观看| 国产精品久久久久久久久搜平片| 色妞欧美日韩在线| 一本大道久久a久久精二百| 日韩欧美第一区| 日韩专区av| av在线电影院| 欧美大胆的人体xxxx| 免费在线成人激情电影| 免费成人你懂的| 亚洲一区二区| h片在线播放|