一個專業(yè)的IDP系統(tǒng)至少需要具備如下兩方面的能力,才能夠滿足富格式文檔的智能化處理需求。
由于文檔本身多模態(tài)的特點,決定了IDP系統(tǒng)必須能夠綜合應(yīng)用計算機視覺和自然語言處理等技術(shù),包括圖像處理、OCR、表格識別、文檔解析、文本分析、文本理解等,對于文檔中的標(biāo)題、段落、表格、圖表、印章、簽名等多模態(tài)信息進行識別、提取和進一步的理解和分析。
由于不同領(lǐng)域的文檔特征差異很大,為了在領(lǐng)域數(shù)據(jù)上達到業(yè)務(wù)可用的精度要求,IDP系統(tǒng)必須具備領(lǐng)域樣本高效學(xué)習(xí)能力,能夠生成優(yōu)化后的模型,滿足業(yè)務(wù)場景應(yīng)用需求,為實際業(yè)務(wù)創(chuàng)造價值。
多模態(tài)能力和領(lǐng)域?qū)W習(xí)能力等方面的要求,決定了通用IDP系統(tǒng)是一個復(fù)雜的綜合性軟件系統(tǒng),對于技術(shù)架構(gòu)和系統(tǒng)設(shè)計提出了很高的要求。架構(gòu)上,IDP系統(tǒng)需要能夠兼容各種深度學(xué)習(xí)框架,并能夠?qū)τ诟鞣N預(yù)訓(xùn)練大模型、多模態(tài)預(yù)置模型和用戶自訓(xùn)練的領(lǐng)域模型實現(xiàn)有效的模型治理。并且,能夠以統(tǒng)一的模型能力層,向文檔應(yīng)用層提供接口,滿足上層智能化應(yīng)用的調(diào)用需求。大語言模型在智能文檔處理中的價值與挑戰(zhàn)如下圖,是一個常見的IDP系統(tǒng)模型技術(shù)棧。可以看出,LLMs僅僅是在自然語言文本這個模態(tài)上,作為預(yù)訓(xùn)練基礎(chǔ)模型(如紅色高亮部分)。相比于文本領(lǐng)域的處理能力,IDP系統(tǒng)中更加核心的功能在于文檔圖像和多模態(tài)信息的綜合處理能力,包括OCR、表格識別、印章識別,以及文檔分類、信息檢索和文檔抽取等。
圖2 IDP模型技術(shù)棧
因此,對于IDP系統(tǒng),大語言模型主要作用是幫助提升文檔文本的理解和生成能力,尚無法完全替代IDP模型技術(shù)棧。大語言模型在IDP系統(tǒng)的主要應(yīng)用包括:
利用大語言模型強大的文本理解能力,提升文檔中文本信息的分類能力,如段落和條款,進而提升文檔信息檢索和文檔分類的效果。
相比于BERT等大語言模型,GPT大模型具備生成式的特點,能夠更好滿足文檔知識實時問答的應(yīng)用,幫助實現(xiàn)諸如“與你的文檔聊天”等應(yīng)用功能。
大語言模型在文本信息抽取方面具備強大的能力,如從特定條款或段落中抽取實體、關(guān)系和事件,幫助提升文檔關(guān)鍵信息抽取能力。
利用大語言模型強大的理解能力,能夠提升文檔中不同條款、段落之間,以及與標(biāo)準(zhǔn)條款和段落的比對精度,改善文檔比對效果。大語言模型在幫助提升IDP文本處理能力的同時,也面臨諸多挑戰(zhàn)和風(fēng)險,主要包括:
GPT-4具有最大32K Token輸入和25K Word輸入的要求,限制了對于長文檔的處理能力,如幾十上百頁的合同和報告文件。這就要求必須通過前置的信息檢索或段落抽取等預(yù)處理,提取出大篇幅文檔中的相關(guān)部分,再輸入大模型進行后續(xù)任務(wù)處理。
不同于BERT等大模型,GPT(Generative Pre-trained Tranformer)模型屬于生成式語言模型,對于模型輸出的信息無法進行精準(zhǔn)溯源,即很多情況下無法準(zhǔn)確獲得輸出內(nèi)容在文檔中的具體位置,這就增加了輸出的風(fēng)險性。在對于模型精準(zhǔn)度要求高的場景下,如金融業(yè)務(wù)場景,往往極小概率的風(fēng)險也會帶來巨大的損失。因此,就需要通過模型優(yōu)化和后處理等方法進行有效規(guī)避,避免非法輸出問題。
上文提到,文檔的一大特征在于其領(lǐng)域信息的多樣性和差異性。通用大語言模型通?;诠_的互聯(lián)網(wǎng)語料訓(xùn)練獲得,包括維基百科、新聞文章、社交媒體等,因此,缺乏對于領(lǐng)域知識的深度學(xué)習(xí)和理解。實際應(yīng)用中,必須結(jié)合領(lǐng)域數(shù)據(jù)基于預(yù)訓(xùn)練語言模型進行學(xué)習(xí)和調(diào)優(yōu),以達到實際業(yè)務(wù)場景的使用要求,這也是IDP系統(tǒng)必須具備高效學(xué)習(xí)能力的根本原因。
大模型通常具備較大的參數(shù)規(guī)模,如GPT-3.5有1750億參數(shù),對于本地化和私有化部署場景下的算力成本具有很高的要求。因此,這些場景下,必須進行模型輕量化處理才能真正落地使用,如通過知識蒸餾和模型量化等技術(shù)。賽博結(jié)合大模型技術(shù)打造高效學(xué)習(xí)能力,提供IDP全新解決方案賽博智能學(xué)習(xí)平臺定位于一站式機器學(xué)習(xí)平臺,基于預(yù)置的多模態(tài)能力和高效的領(lǐng)域數(shù)據(jù)學(xué)習(xí)能力,支持對于圖片和文檔等非結(jié)構(gòu)化數(shù)據(jù)的智能化處理。在預(yù)置多模態(tài)能力的基礎(chǔ)上,提供高效的領(lǐng)域數(shù)據(jù)學(xué)習(xí)能力,是賽博平臺智能文檔處理的核心優(yōu)勢。如下圖,是關(guān)于賽博平臺智能文檔處理的核心能力介紹。
圖3 賽博平臺智能文檔處理核心能力
提供通用文檔圖像檢測、區(qū)域分割和矯正、文檔圖像質(zhì)量檢測(模糊、反光、遮擋、拍屏、水印、復(fù)印、篡改、變形、切邊和距離遠等)、干擾和噪聲去除等預(yù)置能力。
提供通用和場景OCR功能。通用OCR支持對于常見的文檔圖像要素的識別,包括文本(打印、手寫、多語言)、表格、印章、勾選和簽名等。場景OCR功能支持超過50種場景文檔圖像的識別能力,涵蓋標(biāo)準(zhǔn)卡證、票據(jù)、表單和憑證。
提供通用的文檔處理能力,包括文檔格式轉(zhuǎn)換、協(xié)議解析、版面分析、文檔解析等,以及合同等場景文檔抽取能力。
提供基礎(chǔ)的自然語言處理功能,包括文本分類、信息抽取、通用問答、情感分析等。
如前節(jié)所述,文檔具有領(lǐng)域特征差異大的特點,主要表現(xiàn)在不同領(lǐng)域文檔之間在種類、版式、語料和表達方式等方面存在較大差異。因此,高效的領(lǐng)域文檔學(xué)習(xí)能力,是IDP系統(tǒng)必備的基本功能,這也是賽博平臺的核心功能之一。如下圖是關(guān)于賽博平臺高效學(xué)習(xí)能力的原理介紹。
圖4 賽博學(xué)習(xí)能力
賽博平臺IDP學(xué)習(xí)能力以大規(guī)模語言模型和文檔版式預(yù)訓(xùn)練模型為基礎(chǔ),通過下游任務(wù)中/小模型算法設(shè)計,結(jié)合領(lǐng)域數(shù)據(jù),高效生成場景模型,并通過一鍵式模型部署和API生成,輸出場景化AI能力,如文檔分類、信息檢索、文檔抽取、段落比對等。依托機器學(xué)習(xí)功能底座,賽博平臺能夠提供文檔數(shù)據(jù)集標(biāo)注、模型訓(xùn)練、模型部署和API應(yīng)用等一體化操作功能,支持用戶通過可視化頁面,高效完成領(lǐng)域文檔數(shù)據(jù)的學(xué)習(xí)和模型能力的輸出與應(yīng)用。另外,為了更好地滿足業(yè)務(wù)場景需求,實現(xiàn)與業(yè)務(wù)深度融合,賽博平臺支持模型輸出規(guī)則和API代碼補丁定制,能夠在線實現(xiàn)模型輸出格式轉(zhuǎn)換、字段拆分與合并、噪聲剔除以及其他高級后處理功能,有效解決模型輸出與業(yè)務(wù)需求之間“最后一公里”的問題。未來,易道博識將繼續(xù)立足于金融、能源、通信等行業(yè),圍繞企業(yè)在日常業(yè)務(wù)運營、審核和監(jiān)督管理、信息檢索和風(fēng)險管控等場景下的數(shù)智化轉(zhuǎn)型需求,依托賽博智能學(xué)習(xí)平臺底座,在滿足客戶數(shù)據(jù)安全的前提下,通過高效學(xué)習(xí)能力,將大模型等前沿技術(shù)與客戶業(yè)務(wù)數(shù)據(jù)相結(jié)合,發(fā)揮巨大效能,通過與業(yè)務(wù)場景的深度融合,為業(yè)務(wù)賦能。