国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

聯想motoX70Air云上舞白冰鉆限定版AI手機即將上市 自帶14顆手工精鑲冰鉆 超奢華只有紅魔還在做24+1TB 姜超:成本暴增 友商一臺都沒有英特爾®至強® D處理器:賦能智能網卡,破解算力-網絡協同瓶頸豐田全新超跑GR GT發布:配641馬力大V8商家仿冒心系天下W26 老機當新機賣!中國電信回應告別“人海戰術”!陳天橋:未來公司值多少錢,不看人數看“認知”“卷”不動了?讓AI銷售團隊替你卷!百度商家智能體升級片來了卡薩帝冰箱亮相廣州設計周亞馬遜云科技推出Amazon Graviton5----迄今性能最強、能效最高的自研CPU第八屆“綻放杯”圓滿落幕,華為助力千行百業5G應用“全面綻放”機構:2025年第三季度中國PC市場同比增長2%火山引擎發布豆包語音識別模型2.0提升多語種識別精度現代汽車推出 AI 驅動的 MobED 機器人,2026年上市Vidu發布 Q2“生圖全家桶”:4K 生圖 + 圖像編輯 + 圖轉視頻,全都免費用中國新勢力首家!理想汽車累計交付突破150萬輛瑞典Oceanbird Wing 560翼帆開放訂購,2026量產在即,加速布局中國市場賦能綠色航運億邦智庫第七次《產業互聯網發展報告》重磅發布一加Ace 6T首銷10分鐘賣爆!打破今年同檔機型全天銷售紀錄魯大師11月電動兩輪車榜:潮玩思路重塑市場,九號領跑智能化豆包手機助手宣布部分調整AI操作手機能力
  • 首頁 > 云計算頻道 > 大模型

    跨語言檢索、檢索增強生成……一文看懂最火大模型AI搜索技術

    2023年11月29日 17:45:22 來源:

      引言:2023年,大模型技術迎來顛覆性突破,新興AI應用不斷涌現,重塑著人類、機器與智能的關系。一場人工智能風暴,席卷世界。為此,昆侖萬維天工團隊重磅推出「天工一刻」系列內容,對大模型上下游技術進行一次全面解讀,涵蓋學術熱點、技術創新、應用案例等。希望我們的內容能為所有關注大模型技術的讀者,提供一些借鑒與參考。

      問:把大模型放進AI搜索里,要做哪幾步?

      答:搜索里的每一步。

      對于廣大用戶而言,大模型的能力最直觀體現在答案生成上。用戶向“天工”AI搜索提問后,大模型將直接結合搜索內容生成答案,無需用戶在紛繁冗雜的鏈接集合中親自尋找。

      但事實上,大模型在“天工”AI搜索里發揮的作用,可遠不僅僅在此。

      數據搜集、索引建立、檢索算法設計、排序算法設計、向量數據庫、檢索增強生成、搜索結果生成……大模型的能力貫穿了“天工”AI搜索的幾乎每一個環節。

      對于用戶而言,大模型加持的新一代搜索引擎,能夠讓搜索結果更精準、更高效、更可信;

      而對于搜索引擎的設計者而言,大模型加持,能讓開發人員投入更少的重復工作、更快的開發速度、得到更好的搜索效果。

      本文將從以下方向介紹與AI搜索引擎相關的大模型技術:

      1.為什么搜索引擎這么難做?

      2.搜索三大環節:數據、檢索、匹配

      3.大模型AI搜索關鍵技術有哪些?

      01 搜索引擎的歷史和萬維網一樣長

      很少人知道,搜索引擎的歷史,和萬維網(www)一樣長。

      1990年,萬維網之父蒂姆·伯納斯-李(Tim Berners-Lee)剛剛將WorldWideWeb瀏覽器和Web服務器的源代碼發布到了互聯網上,HTTP協議還要數年之后才會出現。

      當時,FTP(文件傳輸協議)仍是網絡文件共享的主要工具。但不同的FTP文件零星儲存在互聯網的各個角落,沒有具體的文件地址就無法訪問。

      為了解決這個問題,三名加拿大蒙特利爾的大學生聚在一起,發明了一款用于FTP文件資源檢索的工具——Archie。使用Archie,用戶只需要知道文件名稱,就能夠查詢文件所在FTP地址。

      這三名年輕人沒有意識到,他們隨手的一個舉動,竟揭開了互聯網歷史上全新的一頁——搜索引擎。

      自此,全球第一款互聯網搜索引擎誕生,互聯網搜索概念迎來大爆發。

      3年后,世界上第一個互聯網互聯網爬蟲程序誕生;

      4年后,世界上第一個既可搜索又可瀏覽的分類目錄誕生、基于網站索引的門戶網站雅虎誕生、日后名噪一時的 Infoseek搜索引擎誕生;

      此后,全球搜索引擎層出不窮;

      8年之后,谷歌誕生。

      從1990年至今,三十多年間,搜索技術已經逐漸滲透到了我們電子生活的方方面面。除了傳統意義的搜索引擎外,社交軟件、電商平臺、視頻APP、職場APP、甚至外賣APP中,搜索技術都扮演著重要的角色。

      02 238萬億億粒沙子

      設計一個搜索引擎,大致需要以下步驟:收集及處理數據、建立索引、設計檢索算法、信息匹配與排序、返回結果并呈現搜索答案。

      這些環節又可以大致分為三步:數據、檢索、匹配。

      第一步,把互聯網上海量的數據(如網頁、文檔、內容等)收集起來,并對它們進行初步的處理。

      第二步,給每個數據打上合適的“標簽”,再分門別類地儲存到數據庫里,并設計一套精妙的檢索方案,讓自己隨時能夠找到合適的數據。

      第三步,收到用戶發出的搜索指令后,對該指令進行拆解分析、提取核心信息,然后把與這一指令有關的眾多數據按照相關性進行排序,最終匹配呈現最佳答案。

      聽上去似乎不難,但如果你考慮到全球范圍內究竟有多少數據,這事就遠不簡單了。

      根據IDC Global DataSphere 2023數據,2022年,全球范圍內的數據總量達到了103.66ZB,其中中國數據總量達到了23.88ZB,年均增長速度高達26.3%。

      如果你對這幾個天文數字沒什么概念的話,打個比方:1ZB數據是10萬億億字節,而整個地球上所有沙子加起來,大概也就56萬億億粒。

      也就是說,2022年,全中國的數據總量超過了238萬億億字節——比四個地球的沙子加起來還多。

      在四個地球的沙子里,找到一粒符合要求的沙子,難度可想而知。

      03 把大模型裝進AI搜索里

      自1990年至今的三十多年間,搜索技術經歷了多番迭代升級,逐漸變成了一個復雜的系統性工程——涵蓋數據庫、索引、檢索、自然語言處理、甚至計算機視覺等諸多交叉學科。

      近年間,預訓練Transformer模型橫空出世,在人工智能領域掀起革命,此后,以GPT為代表的大語言模型(LLM, Large Language Model)席卷全球,沖擊著各行各業。

      搜索也不例外。

      大模型對于搜索技術的重塑,貫穿每一個環節。

      首先是數據。在搜索技術的諸多環節之中,數據的收集與處理是被討論得最少的環節,卻也是最重要的環節之一。

      數據收集處理之于搜索引擎,相當于地基之于摩天大樓。

      沒有數據的積累,再好的檢索算法也是巧婦難為無米之炊。然而,數據質量也分優良中差。

      上文提到,2022年,全中國的數據總量超過了238萬億億字節,這其中包含的可能是千億級別的網頁內容、百億級別的音視頻內容。

      這其中,又充斥著海量重復信息、虛假新聞、廣告內容……傳統的搜索引擎需要大量的資源對這些信息進行初步的篩選與處理,但耗時長、效率低、成本高。

      而在昆侖萬維“天工”AI搜索的設計之初,就在數據收集與索引環節引入了大模型技術,對互聯網上海量內容進行識別和篩選,屏蔽虛假廣告內容,再引入網站權威性、可靠性等其他影響因子,初步清洗出較為純凈、高質量的搜索結果。

      目前,昆侖萬維“天工”AI搜索團隊已經累計索引了上百億優質數據資源,用戶使用天工AI搜索時,將會顯著地體會到搜索結果質量更高,冗余信息更少。但是,這還不夠。

      根據W3Techs數據,截止至2020年,全球前100萬網頁中,英文網站內容占比59.3%,中文網站內容占比僅為1.3%。在當前全球信息版圖中,英文信息數量幾乎是中文的45倍。即便拋開中文APP的信息孤島因素,全網英文信息數量至少也是中文的10倍以上。特別是在人工智能、生物醫學等前沿科技領域,最新、最快、最“硬核”的內容幾乎全部來自英文網站。

      這個問題,大模型能解決嗎?

      能。

      為了解決這一問題,昆侖萬維“天工”AI搜索團隊在搜索引擎中引入了當今最前沿的跨語言檢索技術(Cross-Language Information Retrieval,CLIR)。

      利用大模型的跨語言理解能力,跨語言檢索技術能夠讓用戶在使用一種語言(如中文)查詢時,搜索引擎依然能在全球范圍內,深入英文知識庫和學術文獻進行檢索,并將有用的信息翻譯整合,最終生成全面、安全、準確的中文回答。

      有了大模型技術“加持”,即便用戶只用中文進行查詢,天工AI搜索也能提供來自全球的最新信息,大大擴展了答案的知識邊界。

      除此之外,理解用戶搜索指令(Query)也是大模型技術發揮作用的環節。如果把搜索比作下館子,數據處理是廚師買菜洗菜,理解用戶指令是看懂用戶“點的菜”,檢索和答案呈現就是炒菜和上菜。你以為用戶在點菜的時候會說“給我來盤宮保雞丁”,但實際上,用戶說的往往是“今天想吃個糊辣口的東西,最好有雞肉,要川派做法,不要京派的。最好帶點甜,不甜也沒關系。”沒想到吧?讀懂用戶指令也是個大難題。

      因此,昆侖萬維“天工”AI搜索團隊在用戶搜索指令理解環節就加入了大模型技術,對用戶搜索指令做Query改寫,深入挖掘用戶真實意圖,并敏銳地捕捉到查詢語句中的上下文關系,從而得到更精確、更相關、更合心意的搜索結果。

      而在檢索與匹配環節中,大模型可發揮的用處則更多。在搜索引擎的設計中,最核心的兩項技術是“召回(Match)”和“排序(Rank)”。

      召回指的是從數據庫的全量信息集合中觸發盡可能多的正確結果,并將結果返回。排序又分為“粗排”和“精排”,指的是根據用戶搜索內容的相關性,對召回結果進行排序。在召回與排序環節里,“相關性”是最重要的目標之一。

      傳統搜索引擎花了海量的資源投入在“人工相關性”中,需要大量人力資源去充分理解用戶搜索指令跟目標內容之間相匹配的特征、頻次、距離、長短等等,幾乎每個抽象算子都需要有專人去做人工分析,實時調校算法參數。面對海量的互聯網信息,這種做法必然難度大、成本高、耗時長、效率低。大模型在此時發揮了它的作用。

      昆侖萬維“天工”AI搜索的召回與排序環節中,大量引入了大模型能力。訓練好的大模型能夠模仿人類的識別判斷能力,判斷搜索指令(Query)和被搜索文檔(Doc)是否具有相關性,并將這些匹配好的相關性樣本當作“教科書案例”讓搜索引擎學習,進而提升搜索引擎的召回、排序性能,并且實現模型側的端對端迭代。

      除了效率更高、耗時更短外,更重要的是,由于人類存在個體差異、認知差異、判斷差異,即便是同一個人在不同時刻的評估結果都會有所不同。相較于人工評估,大模型能夠提供更加穩定的輸出結果。除了上述對搜索技術的重塑、優化、改良外,但在更前沿的科研領域,大模型還在顛覆著搜索引擎的核心架構。

      比如,在昆侖萬維“天工”AI搜索中,引入了當前大模型學術界、產業界最火的研究方向之一——檢索增強生成(RAG)技術。

      RAG將信息檢索與答案生成這兩個環節結合在了一起,其技術路徑可以簡化理解為:用戶提問——在數據庫中檢索相關答案——系統將用戶的提問及檢索出的相關答案一起合成Prompt——將Prompt提交給大模型——大模型返回提問結果。

      (RAG技術原理圖,來自論文《Retrieval-Augmented Generation for Knowledge-intensive NLP Tasks》)

      引入了檢索環節,RAG技術能夠顯著提高搜索答案質量,還能為答案輸出提供可解釋性,一定程度避免了大模型“胡說八道”的傾向。尤其是在面對復雜的、需要深度理解的知識檢索場景時,RAG技術的效果非常優秀,在準確率、召回率等關鍵指標上都超越了不少傳統檢索方法。

      結語

      在海量信息面前,人類對于信息精準匹配的需求日益強烈。搜索,變得越來越重要。

      與此同時,搜索的形態,也在悄然發生改變。

      大模型時代,隨著各類“GPT”的不斷涌現,信息檢索和生成的界限日趨模糊。2023年2月,微軟發布集成ChatGPT的AI搜索引擎New Bing,2023年5月,谷歌推出試驗版AI搜索引擎Search Generative Experience,2023年8月,昆侖萬維推出國內第一款大模型搜索引擎天工AI搜索,越來越多的融合與變革正在發生。

      在搜索引擎誕生的三十余年里,搜索技術曾不止一次地來到技術創新的奇點時刻,陳舊的體驗被顛覆,用戶認知被重塑。大模型不是搜索引擎的第一次革命,也不會是最后一次。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    久久无码av三级| 成人看片在线观看| 国产在线一区二区综合免费视频| fc2在线中文字幕| 99久久久精品| 成人av综合网| 99热在线播放| 久久精品盗摄| 午夜国产精品影院在线观看| 国产精品永久免费观看| 久久精品久久久久久| 精品国产免费人成电影在线观看四季| 夜夜嗨av色综合久久久综合网| 色噜噜色狠狠狠狠狠综合色一| 这里只有精品丝袜| 久久精品美女| 国产美女av一区二区三区| 日韩第一页在线| 亚洲女人被黑人巨大进入| 91精品国产乱码久久久久久| 日本在线视频一区二区三区| 区一区二区三区中文字幕| 精品国内产的精品视频在线观看| 欧美成人免费大片| 青青草久久爱| 亚洲涩涩av| 日韩av理论片| 久久99精品久久久久| 无码一区二区三区视频| 久久久视频在线| 国产一区二区美女视频| 日韩在线播放一区| 日韩久久精品| 欧美激情xxxxx| 九色精品91| 国产精品videosex极品| 欧美日韩伊人| www.成人三级视频| 日本免费高清一区| 日本福利一区二区| 裸体丰满少妇做受久久99精品| 在线免费av网站| 91麻豆高清视频| 国产精品海角社区在线观看| 国产剧情一区二区| 中文字幕在线看视频国产欧美在线看完整| 欧美激情视频播放| 菠萝菠萝蜜在线观看| 国产精品视频永久免费播放| 色婷婷**av毛片一区| 国产精品久久一区主播| 日韩精品一区二区三区丰满| 欧美性色综合网| 日韩精品在线观看一区二区| 国产一区二区三区亚洲综合| 中日韩美女免费视频网址在线观看| 精品久久久久久亚洲精品| 亚洲a∨精品一区二区三区导航| 亚洲欧美综合在线精品| 国产精品jizz在线观看美国| 亚洲人成在线观看一区二区| 日韩亚洲国产中文字幕| 图片区亚洲欧美小说区| 91玉足脚交白嫩脚丫在线播放| 国产成+人+综合+亚洲欧洲| 成人毛片在线观看| 老司机免费视频一区二区三区| 亚洲国产片色| 日本高清不卡三区| 久久国产直播| 欧美国产日韩一区| 亚洲一区观看| 日本一区二区不卡高清更新| 一区二区三区四区蜜桃| 国产成人免费在线观看| 成人无遮挡免费网站视频在线观看| 成人av在线一区二区三区| 日韩免费电影一区二区| 懂色av一区二区三区| 国产欧美一区二区三区久久| 天天久久人人| 日韩欧美成人区| 男男gay无套免费视频欧美| 亚洲人成电影网站色…| 午夜精品美女自拍福到在线| 红杏aⅴ成人免费视频| 久久久久亚洲蜜桃| 日韩电影在线观看完整免费观看| 日本精品久久久久影院| 国产成人高潮免费观看精品| 粉嫩久久99精品久久久久久夜| 日韩av免费电影| 91免费看片在线观看| 超碰成人免费| 污视频在线免费观看网站| 亚洲在线观看视频网站| 黄色一区二区三区四区| 四虎永久在线精品免费一区二区| 欧美日韩国产精品专区| 成人va在线观看| 不卡av日日日| 国产91足控脚交在线观看| 台湾佬中文娱乐网欧美电影| 性欧美xxxx免费岛国不卡电影| 欧美日韩国产天堂| 欧美黄色一级视频| 国产精品无av码在线观看| 国产日产一区二区| 日韩欧美大片| 国产亚洲精品久久久久婷婷瑜伽| 国产有色视频色综合| 精品一区二区三区在线| 欧美日韩最好看的视频| 2020国产成人综合网| 久久黄色网页| 久久亚洲精品中文字幕蜜潮电影| 国产精品视频九色porn| 2021久久精品国产99国产精品| 99九九热只有国产精品| 含羞草久久爱69一区| 国产精品欧美一区二区三区不卡| 五月激情丁香一区二区三区| 欧美久久一区| 欧美国产综合视频| 欧美电影《轻佻寡妇》| 在线亚洲自拍| 欧美性xxxxxx少妇| 亚洲精品成a人| 日韩av一区二区在线观看| 欧美精品导航| 日韩和的一区二在线| 中文字幕在线中文字幕在线中三区| 久久久久国色av免费看影院| 青青草国产成人99久久| av在线播放网| 欧美激情aⅴ一区二区三区| 福利写真视频网站在线| 国产免费播放一区二区| 中文字幕有码在线视频| 97**国产露脸精品国产| 91免费视频网址| 成人免费看视频| 欧美日韩国产在线| 色八戒一区二区三区| 中文字幕av一区二区三区佐山爱| 91黄色免费观看| 亚洲国产成人精品女人| 久久久久国产精品一区三寸| 亚洲男同性恋视频| 欧美亚洲综合色| 欧美女优在线视频| 亚洲精品成人少妇| 草草视频在线| 天堂一区二区三区| 亚洲mm色国产网站| 免费观看在线色综合| 色婷婷综合久久久久中文| 国产精品亚洲视频在线观看| 懂色av一区二区三区| 日本亚洲视频在线| 精品九九九九| av影视在线看| 欧美日韩在线另类| 久久久久国产精品免费网站|