99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀文字識別論文CRNN

新機器視覺 ? 來源:機器學習算法工程師 ? 作者:晟沚 ? 2022-06-09 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前 言

本文主要解讀文字識別論文CRNN.

論文地址:chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1507.05717v1.pdf

01

網(wǎng)絡(luò)結(jié)構(gòu)

CRNN是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于解決基于圖像的序列識別問題,特別是場景文字識別問題。CRNN網(wǎng)絡(luò)結(jié)構(gòu)如下圖:

1e594a82-e731-11ec-ba43-dac502259ad0.png

網(wǎng)絡(luò)結(jié)構(gòu)包含三部分,從下到上依次為:

卷積層,作用是從輸入圖像中提取特征序列;

循環(huán)層,作用是預測從卷積層獲取的特征序列的標簽(真實值)分布;

轉(zhuǎn)錄層,作用是把從循環(huán)層獲取的標簽分布通過去重整合等操作轉(zhuǎn)換成最終的識別結(jié)果;

02

卷積層

CRNN卷積層由標準的CNN模型中的卷積層和最大池化層組成,自動提取出輸入圖像的特征序列。

與普通CNN網(wǎng)絡(luò)不同的是,CRNN在訓練之前,先把輸入圖像縮放到相同高度(圖像寬度維持原樣),論文中使用的高度值是32。

提取的特征序列中的向量是從特征圖上從左到右按照順序生成的,每個特征向量表示了圖像上一定寬度上的特征,論文中使用的這個寬度是1,就是單個像素。

1e864c8a-e731-11ec-ba43-dac502259ad0.png

特別強調(diào)序列的順序是因為在之后的循環(huán)層中,先后順序是LSTM訓練中的一個重要參考量。

03

循環(huán)層

循環(huán)層由一個雙向LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,預測特征序列中的每一個特征向量的標簽分布(真實結(jié)果的概率列表),循環(huán)層的誤差被反向傳播,最后會轉(zhuǎn)換成特征序列,再把特征序列反饋到卷積層,這個轉(zhuǎn)換操作由論文中定義的“Map-to-Sequence”自定義網(wǎng)絡(luò)層完成,作為卷積層和循環(huán)層之間連接的橋梁。

在卷積層的上部建立一個深度雙向遞歸神經(jīng)網(wǎng)絡(luò),稱為遞歸層。遞歸層對特征序列x = x1......xT中每幀的標簽分布進行預測。遞歸層的優(yōu)點有三方面。首先,RNN具有很強的序列上下文信息捕獲能力。使用上下文線索進行基于圖像的序列識別比單獨處理每個符號更加穩(wěn)定和有用。以場景文本識別為例,寬字符可能需要幾個連續(xù)幀來充分描述。此外,有些歧義字在觀察其上下文時更容易區(qū)分,例如“il”通過字高對比比單獨識別更容易識別。

其次,RNN可以將誤差微分反向傳播到它的輸入,即卷積層,讓我們在一個統(tǒng)一的網(wǎng)絡(luò)中共同訓練遞歸層和卷積層。第三,RNN能夠?qū)θ我忾L度的序列進行操作,從開始到結(jié)束進行遍歷。

傳統(tǒng)的RNN單元在輸入層和輸出層之間有一個自連接的隱含層。每當它在序列中接收到一個幀 xt 時,它就用一個非線性函數(shù)更新它的內(nèi)部狀態(tài)(或稱隱藏狀態(tài))ht,這個函數(shù)接受當前輸入xt和上一個內(nèi)部狀態(tài)ht-1: ht=g(xt,ht-1)。然后,基于ht進行預測yt。這樣就捕獲了過去的上下文{xt'}t'

1ead94a2-e731-11ec-ba43-dac502259ad0.png

LSTM是方向性的,它只使用過去的上下文。然而,在基于圖像的序列中,來自兩個方向的上下文是有用的,并且相互補充。因此,將兩個向前和向后的LSTM合并為一個雙向LSTM。此外,可以對多個雙向LSTM進行疊加,得到如上圖b所示的深雙向LSTM。與淺層結(jié)構(gòu)相比,深層結(jié)構(gòu)允許更高層次的抽象,并在語音識別任務(wù)中取得了顯著的性能改進。

在遞歸層中,誤差差沿上圖b所示箭頭的相反方向傳播,例如,通過時間反向傳播(BPTT)。在遞歸層的底部,傳播的微分序列被連接到映射中,反轉(zhuǎn)了將特征映射轉(zhuǎn)換為特征序列的操作,然后反饋到卷積層。在實踐中,我們創(chuàng)建了一個稱為“映射-序列”的自定義網(wǎng)絡(luò)層,作為卷積層和循環(huán)層之間的橋梁。

04

轉(zhuǎn)錄層

網(wǎng)絡(luò)結(jié)構(gòu)簡圖:

1f258ebc-e731-11ec-ba43-dac502259ad0.png

Transcription層是將lstm層的輸出與label對應(yīng),采用的技術(shù)是CTC,可以執(zhí)行端到端的訓練,用來解決輸入序列和輸出序列難以一一對應(yīng)的問題,不要求訓練數(shù)據(jù)對齊和一一標注,直接輸出不定長的序列結(jié)果。對于一段長度為T的序列來說,每個樣本點t(t遠大于T)在RNN網(wǎng)絡(luò)的最后一層都會輸出一個softmax向量,表示該樣本點的預測概率,所有樣本點的這些概率傳輸給CTC模型后,輸出最可能的標簽,再經(jīng)過去除空格(blank)和去重操作,就可以得到最終的序列標簽,CTC對齊輸入輸出是多對一的,例如he-l-lo-與hee-l-lo對應(yīng)的都是“hello”。

基于詞典的轉(zhuǎn)錄

基于字典的模式,其實是就是上面CTC的基礎(chǔ)上,在獲得結(jié)果時,又從字典查了一遍,來更加提高準確率,而沒有字典的就只能取高概率的結(jié)果,少了從字典查這一步。

采用了由Graves等人提出的連接時序分類(Connectionist TemporalClassifification CTC) 層中定義的條件概率。該概率定義為:基于每幀的預測y=y1,y2......yT的標簽序列 l,它忽略了 l 中每個標簽的位置。因此,當我們以該概率的負對數(shù)作為訓練網(wǎng)絡(luò)的目標時,我們只需要圖像及其對應(yīng)的標簽序列,避免了為個別字符標注位置的勞動。

條件概率的公式簡述如下:輸入是一個序列y=y1,y2......yT,其中T為序列長度。其中,每一個

1f564728-e731-11ec-ba43-dac502259ad0.png

是集合 L’ =LU 上的概率分布,而 L 包含任務(wù)中的所有標簽(例如所有英文字符),以及表示為的“空白”標簽。一個序列到序列的映射函數(shù)1f7bdd30-e731-11ec-ba43-dac502259ad0.png定義在如下序列上:

1f9d7d50-e731-11ec-ba43-dac502259ad0.png

其中,T是長度,1fc0fe24-e731-11ec-ba43-dac502259ad0.png是預測概率。???1f7bdd30-e731-11ec-ba43-dac502259ad0.png映射1fc0fe24-e731-11ec-ba43-dac502259ad0.png??到標簽序列 I 上,通過先去除重復的標簽,再去除空白的標簽。例如:?1f7bdd30-e731-11ec-ba43-dac502259ad0.png? 映射 “--hh-e-l-ll-oo--”到“hello”( “-”代表空格) 。之后,定義條件概率為所有預測概率?到標簽序列 l 上的映射1f7bdd30-e731-11ec-ba43-dac502259ad0.png?的概率和:

2050e91c-e731-11ec-ba43-dac502259ad0.png

其中,1fc0fe24-e731-11ec-ba43-dac502259ad0.png?的概率定義為p(1fc0fe24-e731-11ec-ba43-dac502259ad0.png??|y)=

20b17656-e731-11ec-ba43-dac502259ad0.png

其中,20fd06b6-e731-11ec-ba43-dac502259ad0.png是標簽?211e445c-e731-11ec-ba43-dac502259ad0.png在時間戳t的概率。

在基于詞典的模式中,每個測試示例都與一個詞典 D 相關(guān)聯(lián)。主要的,序列標簽通過選擇詞典中定義的擁有最高的條件概率來被選擇,例如,l?=

213a4bde-e731-11ec-ba43-dac502259ad0.png

然而,對于較大的詞典,對詞典進行窮舉搜索,即對詞典中的所有序列計算條件概率,并選擇概率最大的一個,將非常耗時。為了解決這個問題,通過無詞典轉(zhuǎn)錄預測的標簽序列,在編輯距離度量下往往接近于ground-truth。這表明可以將搜索限制為最近鄰的候選對象2172dc06-e731-11ec-ba43-dac502259ad0.png? ,其中?2187f992-e731-11ec-ba43-dac502259ad0.png?是最大編輯距離,I'是為y在無詞序模式下轉(zhuǎn)錄的序列:

21a7a5da-e731-11ec-ba43-dac502259ad0.png

候選對象21d237c8-e731-11ec-ba43-dac502259ad0.png可以以bk樹數(shù)據(jù)結(jié)構(gòu)被有效找尋,bk樹數(shù)據(jù)結(jié)是一種專門適用于離散度量空間的度量樹。bk樹的搜索時間復雜度為

21f2c786-e731-11ec-ba43-dac502259ad0.png

因此,這個方案很容易擴展到非常大的詞典。在本方法中,離線地為詞典構(gòu)造一個bk樹。然后,通過查找小于或等于編輯距離2187f992-e731-11ec-ba43-dac502259ad0.png的查詢序列,用bk樹執(zhí)行快速在線搜索。

無詞典的轉(zhuǎn)錄

以定義的條件概率最高的序列l(wèi)?作為預測,

2264e9ba-e731-11ec-ba43-dac502259ad0.png

即在每個時間戳 t上獲取最可能的標簽,并將結(jié)果序列映射到l?。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4814

    瀏覽量

    103685
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41284
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    161

    瀏覽量

    16803

原文標題:OCR之CRNN論文解讀

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    。 選中.ets文件或者.cpp文件中需要被解釋的代碼行或代碼片段,右鍵選擇CodeGenie > Explain Code,開始解讀當前代碼內(nèi)容。 說明 ?最多支持解讀20000字符以內(nèi)
    發(fā)表于 07-17 17:02

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?472次閱讀

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結(jié)果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領(lǐng)域的頂級學術(shù)會議,每兩年舉辦一次
    的頭像 發(fā)表于 07-03 13:58 ?288次閱讀

    端側(cè)OCR文字識別實現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用場景中就包括了“通用文字識別”,即我們前文中所說的ocr功能。 其整體流程概括為: 首先通過各種方法得到一張圖片,例如拍照、從相冊中選擇、甚至你也可以通過canvas畫布生成的圖片或者通過組件
    發(fā)表于 06-30 18:07

    基于STM32藍牙控制小車系統(tǒng)設(shè)計(硬件+源代碼+論文) 項目實例下載

    基于STM32藍牙控制小車系統(tǒng)設(shè)計(硬件+源代碼+論文) 項目實例下載! 純分享帖,需要者可點擊附件免費獲取完整資料~~~【免責聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 05-23 20:55

    基于STM32的武警哨位聯(lián)動報警系統(tǒng)設(shè)計,支持以太網(wǎng)和WIFI通信(硬件、源碼、論文等)

    基于STM32的武警哨位聯(lián)動報警系統(tǒng)設(shè)計,支持以太網(wǎng)和WIFI通信(硬件、源碼、論文等) 項目實例下載! 純分享帖,需要者可點擊附件免費獲取完整資料~~~【免責聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容
    發(fā)表于 05-23 20:51

    SPI協(xié)議,寄存器解讀

    最近在學習SPI協(xié)議,對寄存器操作不是特別熟練。發(fā)帖希望有大佬能從寄存器角度提供幫助,幫忙指導根據(jù)手冊去解讀協(xié)議。有償。
    發(fā)表于 05-22 20:08

    2025上海車展,電驅(qū)逆變磚的“百家爭鳴” | 10大逆變磚技術(shù)方案匯總與解讀

    -關(guān)于2025上海車展·10大逆變磚(InverterBrick)技術(shù)方案解讀-文字原創(chuàng),素材來源:2025上海車展,廠商官網(wǎng)-本篇為知識星球節(jié)選,完整版報告與解讀在知識星球發(fā)布-1200+
    的頭像 發(fā)表于 05-21 15:45 ?900次閱讀
    2025上海車展,電驅(qū)逆變磚的“百家爭鳴” | 10大逆變磚技術(shù)方案匯總與<b class='flag-5'>解讀</b>

    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技論文

    常必要的,這有助于我們理解技術(shù)邊界,更好地定義產(chǎn)品并做出更精準的投資決策。 一,使用NotebookLM,隨身解讀科技論文 我經(jīng)常使用的解讀科技論文的工具是Notebook,只需要把科
    的頭像 發(fā)表于 05-07 16:13 ?243次閱讀
    老板必修課:如何用NotebookLM 在上下班路上吃透一篇科技<b class='flag-5'>論文</b>?

    labview語音轉(zhuǎn)文字

    labview語音轉(zhuǎn)文字怎么實現(xiàn),目前在論壇上找到了文字轉(zhuǎn)語音
    發(fā)表于 04-07 19:44

    美報告:中國芯片研究論文全球領(lǐng)先

    據(jù)新華社報道,美國喬治敦大學“新興技術(shù)觀察項目(ETO)”3日在其網(wǎng)站發(fā)布一份報告說,2018年至2023年間,在全球發(fā)表的芯片設(shè)計和制造相關(guān)論文中,中國研究人員的論文數(shù)量遠超其他國家,中國在高被
    的頭像 發(fā)表于 03-05 14:32 ?1123次閱讀

    OpenVINO?工具套件使用CRNN_CS模型運行OpenCV* text_detection.cpp報錯怎么解決?

    crnn_cs.onnx 文本識別模型轉(zhuǎn)換為中間表示 (IR): python mo.py --input_model crnn_cs.onnx 使用生成的 IR 文件運行 OpenCV
    發(fā)表于 03-05 09:19

    MOSFET參數(shù)解讀

    SGT-MOSFET各項參數(shù)解讀
    發(fā)表于 12-30 14:15 ?1次下載

    語音識別與自然語言處理的關(guān)系

    了人機交互的革命,使得機器能夠更加自然地與人類溝通。 語音識別技術(shù)概述 語音識別,也稱為自動語音識別(ASR),是指將人類的語音轉(zhuǎn)換成文本的過程。這項技術(shù)的核心在于能夠準確捕捉和解析語音信號,然后將其轉(zhuǎn)換為可讀的
    的頭像 發(fā)表于 11-26 09:21 ?1508次閱讀

    光學識別的過程包含哪些

    光學識別(Optical Character Recognition,OCR)是一種將圖像中的文字轉(zhuǎn)換為機器可讀文本的技術(shù)。這個過程涉及多個步驟,包括圖像預處理、文本檢測、字符分割、字符識別和后處理
    的頭像 發(fā)表于 09-10 15:36 ?822次閱讀