合合信息大模型“加速器”重磅上線

来源:https://www.cnblogs.com/xfuture/p/18289383
-Advertisement-
Play Games

大模型技術的發展和應用,預示著更加智能化、個性化未來的到來。如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。本次世界人工智慧大會期間,合合信息為大模型打造的“加速器”解決方案備受關註。 在大模型訓練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解 ...


大模型技術的發展和應用,預示著更加智能化、個性化未來的到來。如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。本次世界人工智慧大會期間,合合信息為大模型打造的“加速器”解決方案備受關註。

在大模型訓練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解析障礙,從源頭為模型訓練與應用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還載入了行業領先的acge文本向量化模型,助力大模型解決“已讀亂回”的“幻覺”問題,讓大模型在正確的航線上行駛得更遠。

TextIn是合合信息旗下的智能文檔處理平臺,在智能文字識別領域深耕17年,致力於圖像處理、模式識別、神經網路、深度學習、STR、NLP、知識圖譜等人工智慧領域研究。憑藉行業領先的技術實力,為掃描全能王、名片全能王等智能文字識別產品提供強大的底層技術支持,並對企業、開發者、個人用戶提供智能文字識別引擎、產品、雲端服務。
立足AI時代,TextIn以深厚的技術積累為基礎,接連推出通用文檔解析、通用文本向量等技術,賦能大模型文檔應用落地、RAG與Agent開發,成為大模型的“加速器”。

文檔解析引擎:百頁文檔秒級處理,為大模型發展輸送更加純凈的“燃料”

大模型如火如荼發展的背後,高質量的語料正在被急速消耗。對於中國的大模型企業而言,語料短缺問題更為嚴峻:當前大模型數據集主要為英文,全球通用的50億大模型數據訓練集里,中文語料占比極低。大批高價值語料數據“沉睡”在報告、論文、報紙等文檔里,複雜的版面結構制約了大模型的訓練語料處理及大模型文檔問答的應用能力,使之無法被提取。

現階段,無線表、跨頁表格、複雜公式等元素的處理仍是大模型語料處理中的“攔路虎”。合合信息文檔解析引擎“動能”強大,最快1.5秒可解析百頁長文檔中的文本、表格、圖像等非結構化數據,系現階段市面上同類文檔解析引擎中處理速度最快的產品之一;引擎還具備優秀的文檔“理解力”,可智能還原文檔閱讀順序,加速了模型在預訓練、開發、使用落地等多方面的流程。

在現場,參觀者可選擇物理、醫學、金融、社會學等多個知識領域的文檔,向大模型提問專業問題,例如對特定表格內容的總結、關鍵要素的分析等。對比測試結果顯示,載入了文檔解析引擎的大模型,在回答問題的速度、詳細程度、準確度上更勝一籌。

file
圖:大模型使用文檔解析引擎之前(左框)和之後(右框)的效果對比。使用後大模型具備了更快速、優秀的文檔要素分析、表格內容識別能力。

文檔解析引擎的“理解力”從對於圖表等對象的處理能力可見一斑。目前,市面上大多數大模型尚不具備對於圖表內容的識別、解析能力,文檔解析引擎可對研報、論文等文檔中的柱狀圖、折線圖、餅圖、雷達圖等十餘種常見圖表進行“還原”,將其拆解為大模型能“讀懂”的markdown格式。

file
圖:文檔解析引擎將地中海氣候圖表解析為帶有具體數值的Excel表格

在文檔解析引擎的幫助下,大模型可以直接獲取圖表原始的結構化數據,高效地學習理解商業研報和學術論文等專業文檔中的論證邏輯,提升語言理解、數據處理、知識推理分析的效率和準確性,滿足更高價值的金融和學術等應用場景的需要。此外,文檔解析引擎也能做到在圖表不顯示具體數值的情況下,僅依據坐標軸區間估算具體數值,實現了行業級突破。

file
圖:文檔解析引擎基於坐標軸區間,對不顯示具體數據的圖表進行數值估算。

acge模型:為大模型發展打造“指南針”

除了語料質量問題,制約大模型發展的另一個關鍵點在於“幻覺”現象的產生。合合信息大模型“加速器”載入了acge_text_embedding模型(簡稱“acge模型”),通過對大量中文文本數據的深入學習,能夠在應用中顯著提高大模型信息搜索和問答的質量、效率和準確性,讓搜索和問答引擎不再只是匹配文字,而是可以真正理解人的意圖的特性。

如果將大模型比喻為一艘正在行駛的船,acge模型則充分發揮了“指南針”的作用,幫助大模型快速定位通往正確“思路”的航向,在信息的海洋里快速“撈針”,讓大模型更準確地理解專業問題。acge模型具備廣泛的應用場景,從相似性搜索、信息檢索到推薦系統,模型均可提供強有力的技術支撐,極大地提升系統的性能和體驗。

此外,acge模型還引入持續學習訓練方式,剋服了神經網路存在災難性遺忘的問題,可幫助大模型在多個行業中快速創造價值,為構建新質生產力提供強有力的技術支持。

當前,acge模型已在多個應用場景下展現其優勢:
(a) 文檔分類:通過ocr技術精確識別圖片、文檔等場景中的文字,利用acge強大的文本編碼能力,結合語義相似度匹配技術,構建通用分類模型;
(b) 長文檔信息抽取:通過文檔解析引擎與層級切片技術,利用acge生成向量索引,檢索抽取內容塊,提升長文檔信息抽取模型精度;
(c) 知識問答:通過文檔解析引擎與層級切片技術,利用acge生成向量索引,定位文件內容,實現精準問答。
 
目前,合合信息大模型“加速器”已被應用於多家頭部大模型廠商的預訓練流程。此外,“加速器”有望在金融、財經、建築、醫療等數據密集型領域中建立起“行業級知識庫”,幫助企業實現知識資產管理、搜索效率提升,優化業務溝通流程,讓大模型在“源頭活水”的哺育下,更快速地潤澤千行百業。

行業應用:百川智能

在金融報表、行業報告等高知識密度的文檔中,表格的含義是最精華的數據指標。失之毫釐差之千里,一個單元格的理解問題,可能導致整個表格的識別結果產生誤差,而表格的還原準確率,直接影響著模型問答的效果。本次世界人工智慧大會現場,合合信息與百川智能攜手,穿透雙欄、多欄、表格、圖片等複雜的版式,從金融、社科等多領域文檔圖像中快速提取關鍵信息,精準地回答用戶“***鑽”的專業問題,引起了業內人士的關註。

百川智能是一家研發通用人工智慧並提供相關服務的公司,核心業務是打造基礎大模型及顛覆性上層應用。在大模型文檔處理場景中,合合信息與百川共同探索技術應用新範式,破解困擾大模型產業已久的多文檔元素識別、版面分析難題,將對百頁文檔的整體處理速率提升超過10倍。

在表格內容還原、複雜樣本處理、多語言文檔識別等方面,合合信息大模型“加速器”具備高準確性和穩定性,大幅提升了模型的理解力,並通過其強大的多語言識別、多類型支持能力,為多個行業提供了高效、準確、實用的文檔解析服務。目前,大模型“加速器”已被多家大模型廠商應用於金融、醫學、財經、媒體等多領域的文檔的解析中,助力大模型更順利地接軌“專業課”。

如有幫助,請多關註
TeahLead KrisChang,10+年的互聯網和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿裡雲認證雲服務資深架構師,上億營收AI產品業務負責人。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、Controller MVC架構中的控制層,在SpringMVC中,由 Handler 組成 負責提供訪問應用程式的行為:處理用戶的請求並調用 Model層 將其轉換為一個模型數據跳向 View層 在Spring MVC中,對於Controller的配置方式有很多種,通常可以通過介面定義或註解定 ...
  • 本書由Python pandas項目創始人Wes McKinney親筆撰寫,詳細介紹利用Python進行操作、處理、清洗和規整數據等方面的具體細節和基本要點。第2版針對Python 3.6進行全面修訂和更新,涵蓋新版的pandas、NumPy、IPython和Jupyter,並增加大量實際案例,可以 ...
  • 一:下載安裝 1、安裝anaconda anaconda官網 2、安裝pycharm pycharm官網 二:配置環境 1、找到anaconda安裝位置 在系統環境變數中添加如下信息 打開DOS框,輸入conda --version,出現如下信息說明配置成功 三:創建虛擬環境 1、打開DOS框;輸入 ...
  • 正文 今天想寫的內容有點多,就不寫在紙上了。 首先,最高興的,還是我們的《艾爾登法環》有了進展。我和兄長終於通過了 “火山官邸:地底拷問所”。我真是不知道,我和他在這個地方被那兩個擄人少女人拷問了多少次了。不僅如此,拉塔恩也打過了,去了亞壇高原,反正進展很大。 周六的時候加班。從早上 10 點多,持 ...
  • 1.Java基礎 1.1 為什麼Java代碼可以實現一次編寫、到處運行? 參考答案 JVM(Java虛擬機)是Java跨平臺的關鍵。 在程式運行前,Java源代碼(.java)需要經過編譯器編譯成位元組碼(.class)。在程式運行時,JVM負責將位元組碼翻譯成特定平臺下的機器碼並運行,也就是說,只要在 ...
  • 盒子IM —— 一個仿微信實現的網頁版聊天軟體,支持私聊、群聊、離線消息、發送語音、圖片、文件、emoji 表情等功能,不依賴任何第三方收費組件。 ...
  • 前言 上一篇文章香橙派5plus上跑雲手機方案一 redroid(帶硬體加速)中說了怎麼運行redroid,這篇補一下怎麼修改參數編譯內核。 補充 上篇文章有個內容需要補充一下:更新完內核需要用下麵的命令防止內核被apt更新,不然後面使用apt update又回到官方的內核(註意版本號,當前是100 ...
  • 技術債可能來源於多種原因,比如時間壓力、資源限制、技術選型不當等。它可以表現為代碼中的臨時性修補、未能徹底解決的設計問題、缺乏文檔或測試覆蓋等。雖然技術債可以幫助快速推進項目進度,但長期來看,它會增加軟體維護的成本和風險,降低系統的穩定性和可維護性。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...