最新報告指出,谷歌旗下的 Gemini 2.5 Pro 模型能準確解析 PDF 文檔的視覺結構,實現精準的視覺引用功能,成為首款能完全理解 PDF 布局的 AI 模型。
IT之家注:谷歌于 3 月 25 日向付費用戶和開發者發布 Gemini 2.5 Pro 實驗模型,僅隔 4 天時間,谷歌便通過免費 Web 應用向全球用戶開放。
Gemini 2.5 Pro 不僅能提取 PDF 文檔中的文本內容,還能理解其視覺布局,包括圖表、表格和整體排版。
谷歌在開發者文檔中表示,該模型具備“原生視覺”(Native Vision)能力,支持處理最多 3000 個 PDF 文件(每個文件上限為 1000 頁或 50MB),同時擁有 100 萬 token 的超大上下文窗口,未來計劃擴展至 200 萬 token。
AI 初創公司 Matrisk 的聯合創始人 Sergey Filimonov 特別贊揚了 Gemini 2.5 Pro 在 PDF 視覺引用上的表現。
Filimonov 指出,傳統的文本分割方法會切斷用戶與原文的視覺聯系,導致無法直觀驗證信息的來源。甚至在 ChatGPT 中,點擊引用也只能下載 PDF,迫使用戶自行判斷模型是否“幻覺”,這嚴重損害了用戶信任。
過去,引用文檔內容往往只能高亮大段無關文本,精準度極低。Gemini 2.5 徹底改變這一現狀,它不僅能將提取的文本片段映射回原始 PDF 的確切位置,還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。
這種技術突破為用戶提供了直觀的視覺反饋,例如在詢問房屋費率變化時,系統能直接高亮文檔中相關數據(如 15.4% 的費率變化),并標注來源依據。
這種清晰度和交互性是現有工具無法企及的。Gemini 2.5 不僅優化了現有流程,更開啟了全新的文檔交互模式。
相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅領先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展現出驚人的空間理解能力。
Gemini 2.5 的潛力遠不止于文本定位。它還能從 PDF 中提取結構化數據,同時明確標注每個數據的來源位置,解決下游決策中因數據來源不明而產生的信任障礙。
![]()
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。