99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種全新的基于旋轉(zhuǎn)的框架,能對(duì)自然場(chǎng)景中任意方向的文字進(jìn)行檢測(cè)辨認(rèn)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-08 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:對(duì)圖像中的文字進(jìn)行識(shí)別已經(jīng)有很多種方法了,但是大多是水平方向上的識(shí)別,一旦有了旋轉(zhuǎn)角度,這些方法可能就“失靈”了。來(lái)自復(fù)旦大學(xué)和中國(guó)科學(xué)院的幾位研究人員就提出了一種框架,可以識(shí)別圖像中經(jīng)過旋轉(zhuǎn)的文本。以下為論智對(duì)論文的編譯。

摘要

本文介紹了一種全新的基于旋轉(zhuǎn)的框架,能對(duì)自然場(chǎng)景中任意方向的文字進(jìn)行檢測(cè)辨認(rèn)。我們提出了Rotation Region Proposal Networks(RRPN),用于生成傾斜的框架,同時(shí)還帶有圖像旋轉(zhuǎn)角度的信息。之后,這些信息會(huì)適應(yīng)邊界框,從而能更精確地在不同方向上確定文本區(qū)域。Rotation Region-of-Interest(RRoI)池化層是將隨機(jī)方向的候選窗口映射到文本區(qū)域分類器的特征映射上。

整個(gè)框架是基于區(qū)域候選框的結(jié)構(gòu)上搭建的,它與之前的文本檢測(cè)系統(tǒng)相比,能保證在隨機(jī)方向的文本檢測(cè)上有更高的計(jì)算效率。我們?cè)谌N現(xiàn)實(shí)場(chǎng)景中對(duì)該框架進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)了相較于之前的方法它所表現(xiàn)出的效率。

背景介紹

文本檢測(cè)是CV領(lǐng)域一大熱門話題,它的目標(biāo)是在給定圖像中定位文字區(qū)域,這項(xiàng)任務(wù)是很多復(fù)雜任務(wù)的前提,例如視覺分類、視頻分析和其他移動(dòng)應(yīng)用。雖然已有很多商業(yè)產(chǎn)品落地,但是由于場(chǎng)景的復(fù)雜性,自然場(chǎng)景下的文字識(shí)別仍然受到很多限制,例如光線不均、圖片模糊、角度扭曲、方向不同等等。而本文正是關(guān)注現(xiàn)實(shí)生活中不水平的文字區(qū)域。

最近一些研究提出了針對(duì)隨機(jī)方向文本的檢測(cè)方法,總的來(lái)說(shuō),這些方法大致包括兩個(gè)步驟:分割網(wǎng)絡(luò)(全卷積網(wǎng)絡(luò))以及用于傾斜候選框的幾何方法。然而,對(duì)圖像進(jìn)行分割通常很耗時(shí),并且一些系統(tǒng)需要多次后處理才能生成最終的文本區(qū)域候選框,所以并不如直接的檢測(cè)網(wǎng)絡(luò)高效。

在這篇論文中,我們提出了一種基于旋轉(zhuǎn)的方法,和端到端的文本檢測(cè)系統(tǒng),該系統(tǒng)能生成任意方向的候選框。相較于之前的方法,我們的主要成果有:

這次的框架可以用基于候選框區(qū)域的方法預(yù)測(cè)文本線的方向,使候選框能更好地適應(yīng)文本區(qū)域??蚣苤屑尤氲男略兀鏡RoI池化層和旋轉(zhuǎn)的候選框都整合到了架構(gòu)中,保證高效的計(jì)算力。

我們還提出了對(duì)候選框區(qū)域新型的微調(diào)方法,提高任意方向文本檢測(cè)的性能。

我們將新的框架應(yīng)用到三種場(chǎng)景數(shù)據(jù)集上,發(fā)現(xiàn)它比此前的方法更精確、更高效。

具體框架

首先,框架的整體結(jié)構(gòu)如下圖所示:

框架的前部是VGG-16的卷積層,其中由兩部分組成:RRPN和最后一個(gè)卷積層的特征映射的復(fù)制品。RRPN可以為文本樣本生成隨機(jī)方向的候選框,之后會(huì)對(duì)候選框進(jìn)行回歸處理以更好地適應(yīng)文本區(qū)域。而從RRPN分出去的兩個(gè)圖層是分類層(cls)和回歸層(reg)。

cls的分?jǐn)?shù)和reg中的候選框信息組成了兩個(gè)圖層的輸出結(jié)果,并且他們的損失通過計(jì)算總結(jié)構(gòu)會(huì)形成一個(gè)多任務(wù)的損失函數(shù)。之后,RRoI池化層會(huì)扮演一個(gè)最大池化層的角色,將RRPN上任意方向的文本候選框投射到特征映射上。

最后,兩個(gè)全卷積層結(jié)合成一個(gè)分類器,具有RRoI特征的區(qū)域被分為文本或者背景。

在訓(xùn)練階段,真實(shí)的文本區(qū)域用五個(gè)元組表示旋轉(zhuǎn)后的邊界框,分別是(x, y, h, w, θ),(x, y)代表邊界框幾何中心的坐標(biāo),h和w分別代表邊界框較短和較長(zhǎng)的兩邊,θ表示夾角。

旋轉(zhuǎn)連接點(diǎn)(anchors

傳統(tǒng)的連接點(diǎn)利用比例尺和長(zhǎng)寬比參數(shù)表示,通常對(duì)現(xiàn)實(shí)中的文本檢測(cè)并不有效。所以我們通過調(diào)整設(shè)計(jì)了旋轉(zhuǎn)連接點(diǎn)(R-anchors)。具體表示可看下圖:

其中有六個(gè)不同的旋轉(zhuǎn)方向,是綜合考慮覆蓋和計(jì)算效率之后得出的結(jié)果。其次,由于文本區(qū)域經(jīng)常有特殊的形狀,長(zhǎng)寬比改成了1:2、1:5、1:8,以覆蓋更寬的文本。

學(xué)習(xí)旋轉(zhuǎn)候選框

R-anchors生成后,為了執(zhí)行網(wǎng)絡(luò)學(xué)習(xí),就需要對(duì)R-anchors進(jìn)行采樣。候選框的損失函數(shù)形成了多任務(wù)損失,定義為:

其中l(wèi)是類別標(biāo)簽的表示器,參數(shù)p時(shí)softmax函數(shù)計(jì)算出的類別概率,v表示文本標(biāo)簽的預(yù)測(cè)元組,v*表示真實(shí)數(shù)值。

下圖可以看到經(jīng)過回歸后的圖像與未回歸的對(duì)比:

(a)是輸入的圖像,(b)是沒有經(jīng)過回歸處理的方向和連接點(diǎn),(c)是經(jīng)過處理的點(diǎn)

白線的方向就表示R-anchors的方向,白線的長(zhǎng)短表示連接點(diǎn)對(duì)文字的反饋。

下圖是不同多任務(wù)損失值的對(duì)比:

實(shí)驗(yàn)效果

我們分別在三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):MSRA-TD500、ICDAR2015和ICDAR2013。三個(gè)數(shù)據(jù)集都是文本檢測(cè)常用的數(shù)據(jù)集。首先我們對(duì)比了旋轉(zhuǎn)和水平的候選框:

結(jié)果顯示,基于旋轉(zhuǎn)的方法能更精確地確定文字區(qū)域,不會(huì)包含太多的背景,這說(shuō)明在框架中加入旋轉(zhuǎn)策略的有效性。但是雖然檢測(cè)效率有所提高,在MSRA-TD500中仍有檢測(cè)失敗的案例:

在不平衡的光線下(a)、非常小的字體上(b)以及過長(zhǎng)的文本上(c)都會(huì)出現(xiàn)檢測(cè)失敗的情況

但最終在三種數(shù)據(jù)集上的表現(xiàn)還是很不錯(cuò)的:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41241
  • 分類器
    +關(guān)注

    關(guān)注

    0

    文章

    153

    瀏覽量

    13449
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25445

原文標(biāo)題:復(fù)旦&中科院成果:對(duì)任意方向的文字進(jìn)行識(shí)別

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    一種基于圖像平移的目標(biāo)檢測(cè)框架

    1、摘要近年來(lái),在深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)取得了長(zhǎng)足的進(jìn)展。作為一種先進(jìn)的感知方法,智能交通系統(tǒng)對(duì)視頻監(jiān)控幀感興趣的目標(biāo)
    發(fā)表于 08-31 07:43

    一種專門用于檢測(cè)小目標(biāo)的框架Dilated Module

    1. 介紹本文提出一種專門用于檢測(cè)小目標(biāo)的框架,框架結(jié)構(gòu)如下圖:我們探索了可以提高小目標(biāo)檢測(cè)能力的3個(gè)方面:Dilated模塊,特征融合以及
    發(fā)表于 11-04 11:14

    如何對(duì)運(yùn)動(dòng)的車輪進(jìn)行測(cè)定

    在汽車,要使用車速表、牽引控制器、防抱死制動(dòng)器和巡航控制器均需測(cè)知車輪的速度。應(yīng)該對(duì)引擎的每分鐘轉(zhuǎn)數(shù)(RPM)進(jìn)行監(jiān)視,以控制變速器,使車速保持在最高安全速度以下。電動(dòng)車窗通常由一種具有閉環(huán)
    發(fā)表于 11-18 06:16

    一種名片圖像的文字區(qū)塊分割方法

    針對(duì)以手機(jī)攝像頭作為圖像采集器獲得的名片圖像,該文介紹一種文字區(qū)塊的分割方法。對(duì)用手機(jī)攝像頭獲取的彩色名片圖像,利用4個(gè)方向的sobel算子進(jìn)行邊緣
    發(fā)表于 04-15 09:00 ?24次下載

    檢測(cè)物體旋轉(zhuǎn)方向及轉(zhuǎn)速的電路

    檢測(cè)物體旋轉(zhuǎn)方向及轉(zhuǎn)速的電路
    發(fā)表于 04-24 21:48 ?1977次閱讀
    <b class='flag-5'>檢測(cè)</b>物體<b class='flag-5'>旋轉(zhuǎn)</b><b class='flag-5'>方向</b>及轉(zhuǎn)速的電路

    旋轉(zhuǎn)編碼器檢測(cè)轉(zhuǎn)動(dòng)方向的電路

    旋轉(zhuǎn)編碼器檢測(cè)轉(zhuǎn)動(dòng)方向的電路
    發(fā)表于 04-26 15:33 ?4273次閱讀
    <b class='flag-5'>旋轉(zhuǎn)</b>編碼器<b class='flag-5'>檢測(cè)</b>轉(zhuǎn)動(dòng)<b class='flag-5'>方向</b>的電路

    一種改進(jìn)的CAMShift跟蹤算法及人臉檢測(cè)框架

    為充分利用人臉視頻圖像序列的時(shí)空信息,獲得更加準(zhǔn)確的人臉比對(duì)圖像序列,提出一種結(jié)合人臉跟蹤的人臉檢測(cè)框架。使用簡(jiǎn)單快速的正面人臉檢測(cè)算法對(duì)
    發(fā)表于 11-25 09:32 ?0次下載
    <b class='flag-5'>一種</b>改進(jìn)的CAMShift跟蹤算法及人臉<b class='flag-5'>檢測(cè)</b><b class='flag-5'>框架</b>

    一種適用于旋轉(zhuǎn)角的人體檢測(cè)算法

    常用的人體檢測(cè)算法多應(yīng)用于無(wú)旋轉(zhuǎn)角的情況,而在旋轉(zhuǎn)角可變的情況下檢測(cè)性能有限,為此提出了一種適用于有旋轉(zhuǎn)
    發(fā)表于 01-09 16:07 ?0次下載
    <b class='flag-5'>一種</b>適用于<b class='flag-5'>旋轉(zhuǎn)</b>角的人體<b class='flag-5'>檢測(cè)</b>算法

    一種新型分割圖像中人物的方法,基于人物動(dòng)作辨認(rèn)

    圖像分割的般方法是先對(duì)物體進(jìn)行檢測(cè),然后用邊界框?qū)Ξ嬛形矬w進(jìn)行分割。最近,例如Mask R-CNN的深度學(xué)習(xí)方法也被用于圖像分割任務(wù),但是大多數(shù)研究都沒有注意到人類的特殊性:可以通過身體姿勢(shì)
    的頭像 發(fā)表于 04-10 15:02 ?5944次閱讀
    <b class='flag-5'>一種</b>新型分割圖像中人物的方法,基于人物動(dòng)作<b class='flag-5'>辨認(rèn)</b>

    如何提取和檢測(cè)視頻文字?數(shù)字視頻中文字檢測(cè)提取技術(shù)的分析

    作為一種高級(jí)語(yǔ)義特征, 視頻文字信息對(duì)視頻內(nèi)容的理解、索引和檢索具有重要意義。本文針對(duì)非壓縮域中視頻文字檢測(cè)與提取技術(shù)做了詳盡的分析和
    發(fā)表于 09-17 17:58 ?26次下載
    如何提取和<b class='flag-5'>檢測(cè)</b>視頻<b class='flag-5'>中</b>的<b class='flag-5'>文字</b>?數(shù)字視頻中<b class='flag-5'>文字</b>的<b class='flag-5'>檢測(cè)</b>提取技術(shù)的分析

    一種硅片旋轉(zhuǎn)甩干裝置,它的應(yīng)用優(yōu)勢(shì)是什么

    本實(shí)用新型涉及一種機(jī)械裝置,尤其涉及一種干燥既全面又徹底、成本較低的硅片旋轉(zhuǎn)甩干裝置。 傳統(tǒng)的裝置具有以下的不足之處:1)干燥程度不徹底、不全面;2)成本較高、性價(jià)比不高。 為了克服現(xiàn)有技術(shù)
    發(fā)表于 12-31 09:34 ?1384次閱讀
    <b class='flag-5'>一種</b>硅片<b class='flag-5'>旋轉(zhuǎn)</b>甩干裝置,它的應(yīng)用優(yōu)勢(shì)是什么

    如何對(duì)typo 進(jìn)行檢測(cè)和糾正

    自然語(yǔ)言文本中經(jīng)常會(huì)出現(xiàn)些拼寫錯(cuò)誤(typo),在中文文本里即所謂的錯(cuò)別字,中文拼寫糾錯(cuò)(Chinese Spelling Correction,CSC)可以對(duì)中文文本的 typo 進(jìn)行檢
    的頭像 發(fā)表于 07-13 14:38 ?2095次閱讀

    一種基于HOG+SVM的行人檢測(cè)算法

    在先進(jìn)駕駛輔助系統(tǒng), 基于視覺的行人檢測(cè)能對(duì)攝像頭視野范圍內(nèi)的無(wú)遮擋行人進(jìn)行檢測(cè), 并且易受天氣的影響, 在極端天氣下無(wú)法工作。
    的頭像 發(fā)表于 02-22 10:17 ?3483次閱讀

    OpenVINO場(chǎng)景文字檢測(cè)文字識(shí)別教程

    OpenVINO是英特爾推出的深度學(xué)習(xí)模型部署框架,當(dāng)前最新版本是OpenVINO2023版本。OpenVINO2023自帶各種常見視覺任務(wù)支持的預(yù)訓(xùn)練模型庫(kù)Model Zoo,其中支持場(chǎng)景文字
    的頭像 發(fā)表于 09-24 15:31 ?2218次閱讀
    OpenVINO<b class='flag-5'>場(chǎng)景</b><b class='flag-5'>文字</b><b class='flag-5'>檢測(cè)</b>與<b class='flag-5'>文字</b>識(shí)別教程

    一種利用幾何信息的自監(jiān)督單目深度估計(jì)框架

    本文方法是一種自監(jiān)督的單目深度估計(jì)框架,名為GasMono,專門設(shè)計(jì)用于室內(nèi)場(chǎng)景。本方法通過應(yīng)用多視圖幾何的方式解決了室內(nèi)場(chǎng)景幀間大
    發(fā)表于 11-06 11:47 ?720次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的自監(jiān)督單目深度估計(jì)<b class='flag-5'>框架</b>