文檔數據的提取是文檔理解的重要組成部分。在本節(jié)中,我們將討論如何將OCR與RPA集成,反之亦然。首先,我們都知道文檔在模板、樣式、格式和語言方面有不同的類型。因此,我們不能依靠簡單的OCR技術從這些文檔中提取數據。為了解決這個問題,我們將在OCR中使用基于規(guī)則的方法和基于模型的方法來處理來自不同文檔結構的數據?,F在,我們將看到OCR公司如何根據文檔的類型將RPA集成到他們現有的系統(tǒng)中。
結構化文件:
在這種類型的文檔中,布局和模板通常是固定的,并且?guī)缀跏且恢碌?。例如,考慮一個使用政府頒發(fā)的ID(如護照或駕駛執(zhí)照)進行KYC的組織。所有這些文檔將是相同的,并有相同的字段ID號碼,姓名,年齡,和很少其他在相同的位置。但只有細節(jié)不同??赡芎苌儆屑s束,如表溢出或未歸檔的數據。
通常,推薦的方法使用模板或基于規(guī)則的引擎來提取結構化文檔的信息。這些可以包括正則表達式或簡單的位置映射和OCR。因此,為了集成軟件機器人來實現信息提取的自動化,我們可以使用預先存在的模板,也可以為我們的結構化數據創(chuàng)建規(guī)則。使用基于規(guī)則的方法有一個缺點,因為它依賴于固定的部分,即使是表單結構的微小變化也會導致規(guī)則崩潰。
半結構化文件:
這些文件有相同的信息,但排列在不同的位置。例如,考慮包含8-12個相同字段的發(fā)票。在一些發(fā)票中,商家地址可以位于頂部,而在另一些發(fā)票中,則可以在底部找到。通常,這些基于規(guī)則的方法不能提供高精度的信息,因此我們將機器學習和深度學習模型引入到圖像中,以便使用OCR進行信息提取?;蛘?,在某些情況下,我們可以使用涉及規(guī)則和ML模型的混合模型。一些流行的預訓練模型是FastRCNN、注意OCR、用于文檔信息提取的圖卷積。然而,這些模型也有一些缺點;因此,我們使用諸如準確性或置信度評分等指標來衡量算法的性能。因為模型是在學習模式,而不是按照具體的規(guī)則操作,所以它可能在修正后一開始就會犯錯誤。然而,解決這些缺點的方法–ML模型處理的樣本越多,它學習的模式就越多,以確保準確性。
非結構化文件:
RPA目前無法直接管理非結構化數據,因此需要機器人首先使用OCR提取和創(chuàng)建結構化數據。與結構化和半結構化文檔不同,非結構化數據沒有幾個鍵值對.例如,在一些發(fā)票中,我們看到一個商人的地址沒有任何鍵名;同樣,我們對日期、發(fā)票ID等其他字段也是如此。為了準確地處理這些數據,機器人需要學習如何將書面文本轉換為可操作的數據,如電子郵件、電話號碼、地址等。然后,該模型將了解到,7位數或10位數的數字模式應該被提取為電話號碼和包含五位數代碼和不同名詞的巨大文本。為了使這些模型更加準確,我們還可以使用自然語言處理(NLP)的技術,例如命名實體識別和單詞嵌入。
總的來說,要理解文檔,首先須了解數據,然后用RPA實現OCR。接下來,我們可以通過將規(guī)則和機器學習算法集成起來,記錄過程中發(fā)生的過程,而不是一步一步地繪制出一個過程,而不是一步一步地給機器人“做我要做的事情”。軟件機器人跟蹤您在屏幕上的單擊和操作,然后將它們轉換為可編輯的工作流。如果你完全在當地的項目中工作,你就需要知道這一點。