99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

了解光學(xué)字符識(shí)別技術(shù)識(shí)別票據(jù)原理

新機(jī)器視覺(jué) ? 來(lái)源:新機(jī)器視覺(jué) ? 作者:Ivan Ozhiganov ? 2020-11-27 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文翻譯自dzone 中Ivan Ozhiganov 所發(fā)文章Deep Dive Into OCR for Receipt Recognition 文中版權(quán)、圖像代碼等數(shù)據(jù)均歸作者所有。為了本土化,翻譯內(nèi)容略作修改。

光學(xué)字符識(shí)別技術(shù)(OCR)目前被廣泛利用在手寫(xiě)識(shí)別、打印識(shí)別及文本圖像識(shí)別等相關(guān)領(lǐng)域。小到文檔識(shí)別、銀行卡身份證識(shí)別,大到廣告、海報(bào)。因?yàn)镺CR技術(shù)的發(fā)明,極大簡(jiǎn)化了我們處理數(shù)據(jù)的方式。

同時(shí),機(jī)器學(xué)習(xí)(ML)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的快速發(fā)展也讓文本識(shí)別出現(xiàn)了巨大的飛躍!我們?cè)诒疚牡难芯恐幸矊⑹褂镁矸e神經(jīng)網(wǎng)絡(luò)CNN技術(shù)來(lái)識(shí)別零售店的紙質(zhì)票據(jù)。為了方便演示,我們本次將僅采用俄語(yǔ)版的票據(jù)進(jìn)行測(cè)試。

我們的目標(biāo)是項(xiàng)目開(kāi)發(fā)一個(gè)客戶端來(lái)識(shí)別來(lái)獲取相關(guān)文檔,在有服務(wù)器端去識(shí)別解析數(shù)據(jù)。準(zhǔn)備好了嗎?讓我們一起去看看怎么做吧!

預(yù)處理

首先,我們需要接收?qǐng)D像相關(guān)數(shù)據(jù),使其水平豎直方向垂直,接下來(lái)使用算法進(jìn)行檢測(cè)是否為票據(jù),最終二值化方便識(shí)別。

旋轉(zhuǎn)圖像識(shí)別收據(jù)

我們有三種方案來(lái)識(shí)別票據(jù),下文對(duì)這三種方案做了測(cè)試。

1. 高閾值的自適應(yīng)二值化技術(shù)。2. 卷積神經(jīng)網(wǎng)絡(luò)(CNN)。3. Haar特征分類器。

自適應(yīng)二值化技術(shù)

首先,我們看到,圖中圖像上包含了完整的數(shù)據(jù),同時(shí)票據(jù)又與背景有些差距。為了能更好識(shí)別相關(guān)數(shù)據(jù),我們需要將圖片進(jìn)行旋轉(zhuǎn)。使其水平沿豎直方向?qū)R。

我們使用Opencv中的自適應(yīng)閾值化函數(shù)adaptive_threshold和scikit-image框架來(lái)調(diào)整收據(jù)數(shù)據(jù)。利用這兩項(xiàng)函數(shù),我們可以在高梯度區(qū)域保留白色像素,低梯度區(qū)域保留黑色像素。這使得我們獲得了一個(gè)高反差的樣本圖片。這樣,通過(guò)裁剪,我們就能得到票據(jù)的相關(guān)信息了。

使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)

起初我們決定使用CNN來(lái)做相關(guān)位置檢測(cè)的接收點(diǎn),就像我們之前做對(duì)象檢測(cè)項(xiàng)目一樣。我們使用判斷角度來(lái)拾取相關(guān)關(guān)鍵點(diǎn)。這種方案雖然好用,但是和高閾值對(duì)比檢測(cè)裁剪更差。

因?yàn)镃NN只能找到文本的角度坐標(biāo),而文字的角度變化很大,這就意味著CNN模型不是很精準(zhǔn)。詳情請(qǐng)參考下面CNN測(cè)試的結(jié)果。

使用Haar特征分類器來(lái)識(shí)別收據(jù)

作為第三種選擇,我們嘗試使用Haar特征分類器來(lái)做分類篩選。然而經(jīng)過(guò)一周的分類訓(xùn)練和改變相關(guān)參數(shù),我們并沒(méi)有得到什么比較積極的結(jié)果,甚至發(fā)現(xiàn)CNN都比Haar表現(xiàn)好得多。

二值化

最終我們使用opencv中的adaptive_threshold方法進(jìn)行二值化,經(jīng)過(guò)二值化處理,我們得到了一個(gè)不錯(cuò)的圖片。

文本檢測(cè)

接下來(lái)我們來(lái)介紹幾個(gè)不同的文本檢測(cè)組件。

通過(guò)鏈接組件檢測(cè)文本

首先,我們使用Opencv中的find Contours函數(shù)找到鏈接的文本組。大多數(shù)鏈接的組件是字符,但是也有二值化留下來(lái)嘈雜的文本,這里我們通過(guò)設(shè)置閾值的大小來(lái)過(guò)濾相關(guān)文本。

然后,我們執(zhí)行合成算法來(lái)合成字符,如:Й和=。通過(guò)搜索最臨近的字符組合合成單詞。這種算法需要你找到每個(gè)相關(guān)字字母最臨近的字符,然后從若干字母中找到最佳選擇展示。

接下來(lái)文字形成文字行。我們通過(guò)判斷文字是否高度一致來(lái)判斷文本是否屬于同一行。

當(dāng)然,這個(gè)方案的缺點(diǎn)是不能識(shí)別有噪聲的文本。

使用網(wǎng)格對(duì)文本進(jìn)行檢測(cè)

我們發(fā)現(xiàn)幾乎所有票據(jù)都是相同寬度的文本,所以我們?cè)O(shè)法在收據(jù)上畫(huà)出一個(gè)網(wǎng)格,并利用網(wǎng)格分割每個(gè)字符:

網(wǎng)格一下子精簡(jiǎn)了票據(jù)識(shí)別的難度。神經(jīng)網(wǎng)絡(luò)可以精準(zhǔn)識(shí)別每個(gè)網(wǎng)格內(nèi)的字符。這樣就解決了文本嘈雜的情況。最終可以精確統(tǒng)計(jì)文本數(shù)量。

我們使用了以下算法來(lái)識(shí)別網(wǎng)格。

首先,我在二值化鏡像中使用這個(gè)連接組件算法。

然后我們發(fā)現(xiàn)圖中左下角有些是真,所喲我們通過(guò)二維周期函數(shù)來(lái)調(diào)整網(wǎng)格識(shí)別。

修正網(wǎng)格失真背后主要的思想是利用圖形峰值點(diǎn)找到非線性幾何失真,換句話說(shuō),我們必須找到這個(gè)函數(shù)的最大值的和。另外,我們還需要一個(gè)最佳失真值才行。

我們使用ScipyPython模塊中的RectBivariateSpline函數(shù)來(lái)參數(shù)化幾何失真。并用Scipy函數(shù)進(jìn)行優(yōu)化。得到如下結(jié)果:

總而言之,這個(gè)方法緩慢且不穩(wěn)定,所以堅(jiān)決不打算使用這個(gè)方案。

光學(xué)字符識(shí)別

我們通過(guò)組連接識(shí)別發(fā)現(xiàn)文本,并識(shí)別完整的單詞。

識(shí)別通過(guò)連接組發(fā)現(xiàn)的文本

對(duì)于文本識(shí)別,我們使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)接收相關(guān)字體進(jìn)行培訓(xùn)。輸出部分,我們通過(guò)對(duì)比來(lái)提升概率。我們那個(gè)幾個(gè)最初的幾個(gè)選項(xiàng)多對(duì)比,發(fā)現(xiàn)有99%的準(zhǔn)確識(shí)別率后。又通過(guò)對(duì)比字典來(lái)提高準(zhǔn)確度,并消除相關(guān)類似的字符,如"З" 和 "Э"造成的錯(cuò)誤。

然而,當(dāng)涉及嘈雜的文本時(shí),該方法性能卻十分低下。

識(shí)別完整的單詞

當(dāng)文本太嘈雜的時(shí)候,需要找到完整的單詞才能進(jìn)行單個(gè)字母的識(shí)別。我們使用下面兩個(gè)方法來(lái)解決這個(gè)問(wèn)題:

LSTM網(wǎng)絡(luò)

圖像非均勻分割技術(shù)

LSTM網(wǎng)絡(luò)

您可以閱讀這些文章,以更加深入了解使用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別序列中的文本 ,或我們可以使用神經(jīng)網(wǎng)絡(luò)建立與語(yǔ)言無(wú)關(guān)的OCR嗎?為此,我們使用了OCRopus庫(kù)來(lái)進(jìn)行識(shí)別。

我們使用了等寬的字體來(lái)作為人工識(shí)別樣本進(jìn)行訓(xùn)練。

訓(xùn)練結(jié)束后,我們由利用其他數(shù)據(jù)來(lái)測(cè)試我們的神經(jīng)網(wǎng)絡(luò),當(dāng)然,測(cè)試結(jié)果非常積極。這是我們得到的數(shù)據(jù):

訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在簡(jiǎn)單的例子上表現(xiàn)十分優(yōu)秀。同樣,我們也識(shí)別到了網(wǎng)格不適合的復(fù)雜情況。

我們抽取的相關(guān)的訓(xùn)練樣本,并讓他通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

為了避免神經(jīng)網(wǎng)絡(luò)過(guò)度擬合,我們多次停止并修正訓(xùn)練結(jié)果,并不斷加入新數(shù)據(jù)作為訓(xùn)練樣本。最后我們得到以下結(jié)果:

新的網(wǎng)絡(luò)擅長(zhǎng)識(shí)別復(fù)雜的詞匯,但是簡(jiǎn)單的文字識(shí)別卻并不好。

我們覺(jué)得這個(gè)卷積神經(jīng)網(wǎng)絡(luò)可以細(xì)化識(shí)別單個(gè)字符來(lái)使文本識(shí)別更加優(yōu)秀。

圖像非均勻分割技術(shù)

因?yàn)槭論?jù)字體是等寬的字體,所以我們決定按照字符分割字體。首先,我們需要知道每個(gè)字母的寬度。因此,字符的寬度尤為重要,我們需要估計(jì)每個(gè)字母的長(zhǎng)度,利用函數(shù),我們得到下圖。選擇多種模式來(lái)選取特定的字母寬度。

我們得到一個(gè)單詞的近似寬度,通過(guò)除以字符中的字母數(shù),給出一個(gè)近似分類:

區(qū)分最佳的是:

這種分割方案的準(zhǔn)確度是非常高的:

當(dāng)然,也有識(shí)別不太好的情況:

分割后我們?cè)谑褂肅NN做識(shí)別處理。

從收據(jù)中提取含義

我們使用正則表達(dá)式來(lái)查找收據(jù)中購(gòu)買(mǎi)情況。所有收據(jù)都有一個(gè)共通點(diǎn):購(gòu)買(mǎi)價(jià)格以XX.XX格式來(lái)撰寫(xiě)。因此,可以通過(guò)提取購(gòu)買(mǎi)的行來(lái)提取相關(guān)信息。個(gè)人納稅號(hào)碼是十位數(shù),也可以通過(guò)正則表達(dá)式輕松獲取。同樣,也可以通過(guò)正則表達(dá)式找到NAME / SURNAME等信息。

總結(jié)

不論你選擇什么方法,LSTM或者其他更加復(fù)雜的方案,都沒(méi)有錯(cuò)誤,有些方法很難用,但是有些方法卻很簡(jiǎn)單,因識(shí)別樣本而異。

我們將繼續(xù)優(yōu)化這個(gè)項(xiàng)目。目前來(lái)看,在沒(méi)有噪聲的情況下,系統(tǒng)性能更加優(yōu)秀。

原文鏈接:https://dzone.com/articles/using-ocr-for-receipt-recognition

責(zé)任編輯:xj

原文標(biāo)題:深入淺出了解OCR識(shí)別票據(jù)原理

文章出處:【微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    161

    瀏覽量

    16798
  • 識(shí)別
    +關(guān)注

    關(guān)注

    3

    文章

    173

    瀏覽量

    32258

原文標(biāo)題:深入淺出了解OCR識(shí)別票據(jù)原理

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    即插即用、缺陷同檢,維視智造推出讀碼/字符檢測(cè)視覺(jué)系統(tǒng)新品

    在當(dāng)前的工業(yè)生產(chǎn)領(lǐng)域,產(chǎn)品讀碼和字符識(shí)別是實(shí)現(xiàn)生產(chǎn)自動(dòng)化、提升效率,保障質(zhì)量、滿足嚴(yán)格的可追溯性要求的必要生產(chǎn)動(dòng)作。但因產(chǎn)品特性、生產(chǎn)環(huán)境、生產(chǎn)流程、生產(chǎn)要求的千差萬(wàn)別,傳統(tǒng)的產(chǎn)品讀碼和字符識(shí)別常常
    的頭像 發(fā)表于 06-19 08:51 ?383次閱讀
    即插即用、缺陷同檢,維視智造推出讀碼/<b class='flag-5'>字符</b>檢測(cè)視覺(jué)系統(tǒng)新品

    OCR技術(shù)如何實(shí)現(xiàn)鐵路集裝箱號(hào)的自動(dòng)識(shí)別?

    在鐵路物流運(yùn)輸中,集裝箱號(hào)的快速準(zhǔn)確識(shí)別是提升效率的關(guān)鍵環(huán)節(jié)。通過(guò)先進(jìn)的OCR(光學(xué)字符識(shí)別技術(shù),結(jié)合計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)方法,可以實(shí)現(xiàn)鐵路集裝箱號(hào)的高效、可靠
    的頭像 發(fā)表于 06-13 10:32 ?199次閱讀

    大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注在OCR標(biāo)注場(chǎng)景的應(yīng)用

    OCR,即光學(xué)字符識(shí)別,簡(jiǎn)單來(lái)說(shuō)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。在數(shù)字化時(shí)代,OCR(光學(xué)
    的頭像 發(fā)表于 04-15 15:18 ?378次閱讀

    手持終端集裝箱識(shí)別系統(tǒng)的圖像識(shí)別技術(shù)

    在港口、碼頭、物流園區(qū)等場(chǎng)景中,集裝箱的高效管理一直是行業(yè)智能化升級(jí)的核心需求。基于先進(jìn)的OCR(光學(xué)字符識(shí)別)與AI技術(shù),手持終端集裝箱識(shí)別系統(tǒng)實(shí)現(xiàn)了從大型設(shè)備到移動(dòng)終端的全場(chǎng)景箱號(hào)
    的頭像 發(fā)表于 04-03 10:49 ?298次閱讀

    阿普奇視覺(jué)控制器AK7在OCR識(shí)別場(chǎng)景中的應(yīng)用

    在實(shí)際工業(yè)生產(chǎn)中,OCR(光學(xué)字符識(shí)別技術(shù)的應(yīng)用逐漸普及,在食品包裝、新能源、汽車制造、3C電子等領(lǐng)域幫助企業(yè)完成產(chǎn)品編碼、生產(chǎn)日期、批號(hào)等字符信息自動(dòng)
    的頭像 發(fā)表于 03-20 11:44 ?229次閱讀
    阿普奇視覺(jué)控制器AK7在OCR<b class='flag-5'>識(shí)別</b>場(chǎng)景中的應(yīng)用

    人臉識(shí)別技術(shù)的優(yōu)勢(shì)與劣勢(shì)

    人臉識(shí)別技術(shù)的優(yōu)勢(shì) 1. 高度準(zhǔn)確性 人臉識(shí)別技術(shù)在理想條件下可以達(dá)到非常高的準(zhǔn)確性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,現(xiàn)代人臉
    的頭像 發(fā)表于 02-06 18:23 ?1710次閱讀

    人臉識(shí)別技術(shù)的應(yīng)用場(chǎng)景

    在數(shù)字化時(shí)代,安全和便捷性成為了人們?nèi)找骊P(guān)注的話題。人臉識(shí)別技術(shù)以其獨(dú)特的優(yōu)勢(shì),即無(wú)需物理接觸、快速識(shí)別和高準(zhǔn)確率,成為了解決這些問(wèn)題的關(guān)鍵技術(shù)
    的頭像 發(fā)表于 02-06 17:20 ?1605次閱讀

    Litera Drafting:幫助改進(jìn)發(fā)布文檔的方式(十)

    產(chǎn)品介紹 contentCrawler是一種光學(xué)字符識(shí)別(OCR)和文檔壓縮解決方案,可識(shí)別資源庫(kù)中不可搜索的文檔,并將其轉(zhuǎn)換為大小可控、可進(jìn)行文本搜索的PDF文件。 contentCrawler可
    的頭像 發(fā)表于 01-06 10:57 ?381次閱讀

    語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展

    語(yǔ)音識(shí)別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來(lái),隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)技術(shù)才真正成熟并廣泛應(yīng)用于各個(gè)領(lǐng)域。語(yǔ)音識(shí)別
    的頭像 發(fā)表于 11-26 09:20 ?1634次閱讀

    物體識(shí)別交互軟件 AR實(shí)物識(shí)別桌軟件 電容物體識(shí)別

    物體識(shí)別交互軟件是一種新型的展示互動(dòng)設(shè)備,其采用Unity3D技術(shù)開(kāi)發(fā),還運(yùn)用物體識(shí)別技術(shù)、多媒體技術(shù)等現(xiàn)代先進(jìn)
    的頭像 發(fā)表于 10-16 17:22 ?634次閱讀

    光學(xué)字符識(shí)別是什么的一種技術(shù)

    光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OCR)是一種將文本資料轉(zhuǎn)換為計(jì)算機(jī)可編輯和可搜索的數(shù)據(jù)格式的技術(shù)。這項(xiàng)技術(shù)廣泛應(yīng)用于文檔掃描、數(shù)據(jù)錄入、
    的頭像 發(fā)表于 09-10 15:48 ?1132次閱讀

    光學(xué)識(shí)別技術(shù)的工作原理是什么?

    光學(xué)識(shí)別技術(shù)(Optical Character Recognition,簡(jiǎn)稱OCR)是一種將圖像中的文字信息轉(zhuǎn)換成可編輯和可搜索的文本數(shù)據(jù)的技術(shù)。它廣泛應(yīng)用于文檔掃描、數(shù)據(jù)錄入、自動(dòng)識(shí)別
    的頭像 發(fā)表于 09-10 15:46 ?1386次閱讀

    光學(xué)識(shí)別字符是自動(dòng)識(shí)別技術(shù)

    光學(xué)識(shí)別字符(Optical Character Recognition,簡(jiǎn)稱OCR)是一種自動(dòng)識(shí)別技術(shù),它能夠?qū)⒏鞣N類型文檔(如掃描的紙質(zhì)文檔、PDF文件或數(shù)字相機(jī)拍攝的圖片)中的文字轉(zhuǎn)換成可編
    的頭像 發(fā)表于 09-10 15:43 ?834次閱讀

    光學(xué)識(shí)別的過(guò)程包含哪些

    光學(xué)識(shí)別(Optical Character Recognition,OCR)是一種將圖像中的文字轉(zhuǎn)換為機(jī)器可讀文本的技術(shù)。這個(gè)過(guò)程涉及多個(gè)步驟,包括圖像預(yù)處理、文本檢測(cè)、字符分割、字符識(shí)別
    的頭像 發(fā)表于 09-10 15:36 ?821次閱讀

    光學(xué)識(shí)別輸入的基本原理是什么

    光學(xué)字符識(shí)別(Optical Character Recognition,OCR)是一種將不同格式的文檔(如掃描的紙張文檔、PDF文件或數(shù)字相機(jī)拍攝的圖片)轉(zhuǎn)換成可編輯和可搜索的數(shù)據(jù)的技術(shù)。OCR
    的頭像 發(fā)表于 09-10 15:34 ?1305次閱讀