李蓉 1,周美麗 2
(1.延安大學(xué)西安創(chuàng)新學(xué)院,陜西 西安 710100;2.延安大學(xué),陜西 延安 716000)
摘要:在語(yǔ)言翻譯方面,人工翻譯的速度比較慢,越來(lái)越不能適應(yīng)當(dāng)前社會(huì)發(fā)展的快速需求。因此,需要有新技術(shù)代替人工翻譯,以開發(fā) AI 為基礎(chǔ),實(shí)現(xiàn)快速、準(zhǔn)確、高效的機(jī)器翻譯。針對(duì)傳統(tǒng)機(jī)器自動(dòng)翻譯系統(tǒng)在翻譯過(guò)程中準(zhǔn)確率較低的問(wèn)題,為了提高機(jī)器自動(dòng)翻譯的速度和準(zhǔn)確性,該文提出基于人工智能處理器設(shè)計(jì)的機(jī)器自動(dòng)翻譯系統(tǒng)設(shè)計(jì)。通過(guò)客戶端結(jié)構(gòu)設(shè)計(jì)和人工智能處理器設(shè)計(jì),完成系統(tǒng)的硬件設(shè)計(jì);依托句子相似度的計(jì)算和消除句子歧義,完成系統(tǒng)的軟件設(shè)計(jì),從而實(shí)現(xiàn)機(jī)器自動(dòng)翻譯系統(tǒng)的設(shè)計(jì)。測(cè)試結(jié)果表明,基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng),相比于基于文本庫(kù)的機(jī)器自動(dòng)翻譯系統(tǒng),在句子翻譯速度和準(zhǔn)確率方面都有所提高。
中圖分類號(hào):TN915?34;TP391? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004?373X(2022)02?0183?04
0 引 言
如今即使手工翻譯可以完整地將原文表達(dá)出來(lái),但是隨著文獻(xiàn)資源的增多,人工翻譯的速度變得越來(lái)越慢。機(jī)器自動(dòng)翻譯是加快文本翻譯的重要手段,機(jī)器自動(dòng)翻譯分為基于文本庫(kù)和基于翻譯規(guī)則,基于文本庫(kù)的機(jī)器自動(dòng)翻譯需要大量的文本資源來(lái)構(gòu)建文本信息資源庫(kù),而且文本資源在組成資源庫(kù)時(shí)經(jīng)常出現(xiàn)文本數(shù)據(jù)密集和稀疏的問(wèn)題,在翻譯少見詞匯時(shí)缺乏精準(zhǔn)度[1];基于翻譯規(guī)則的機(jī)器自動(dòng)翻譯可以將文本內(nèi)容清楚地描述出來(lái),但是規(guī)則庫(kù)的構(gòu)建存在一定難度,翻譯時(shí)很難達(dá)到較好的翻譯成果[2]?;谏鲜鰞煞N翻譯系統(tǒng)存在的問(wèn)題,本文將人工智能技術(shù)應(yīng)用到機(jī)器自動(dòng)翻譯系統(tǒng)設(shè)計(jì)中。機(jī)器自動(dòng)翻譯的主要目的就是消除歧義語(yǔ)句,針對(duì)一個(gè)詞語(yǔ),在不用的語(yǔ)境下會(huì)被翻譯成不同的意思,因此在人工智能技術(shù)的基礎(chǔ)上,讓機(jī)器在不同的語(yǔ)境條件下,自動(dòng)找到該詞語(yǔ)的真正對(duì)應(yīng)的意思是機(jī)器翻譯亟需解決的關(guān)鍵問(wèn)題。機(jī)器自動(dòng)翻譯系統(tǒng)的文本翻譯質(zhì)量雖然還沒(méi)有達(dá)到人工翻譯的程度,但是如今已經(jīng)在社會(huì)上的各個(gè)鄰域都得到了廣泛的應(yīng)用[3]。機(jī)器自動(dòng)翻譯系統(tǒng)作為人工翻譯的補(bǔ)充和修正,在一定條件下可以提高翻譯人員的工作效率,并提高了翻譯的準(zhǔn)確度,早已經(jīng)成為翻譯人員的得力助手?,F(xiàn)如今,各個(gè)民族和國(guó)家之間的文化交流比較頻繁,語(yǔ)言上的不通已經(jīng)成為阻礙民族與民族之間、國(guó)家與國(guó)家之間溝通的障礙[4],為了促進(jìn)文化知識(shí)的溝通和交流,在人工智能技術(shù)的基礎(chǔ)上,設(shè)計(jì)機(jī)器自動(dòng)翻譯系統(tǒng)對(duì)國(guó)家和民族的發(fā)展有著積極作用。
1 大學(xué)人力資源管理系統(tǒng)硬件設(shè)計(jì)
1.1 客戶端結(jié)構(gòu)設(shè)計(jì)
客戶端結(jié)構(gòu)設(shè)計(jì)可以讓用戶通過(guò)上傳圖片來(lái)獲取翻譯內(nèi)容,省去了用戶打字的時(shí)間,提高了翻譯的速度和準(zhǔn)確率。用戶可以選擇通過(guò)手機(jī)拍照軟件,來(lái)捕獲需要翻譯的文字內(nèi)容,以圖片的形式將翻譯內(nèi)容上傳到云端服務(wù)器[5];還可以直接從本機(jī)圖庫(kù)中選擇提前拍攝好的文字圖片,再將圖片上傳到云端服務(wù)器,并在翻譯系統(tǒng)的設(shè)置選項(xiàng)中,完成攝像頭的對(duì)焦和閃光設(shè)置,在用戶需求的情況下,還要設(shè)置需要識(shí)別的語(yǔ)言。然后將選擇好的圖片利用HTTP協(xié)議上傳到系統(tǒng)云端服務(wù)器,并由部署在云端服務(wù)器上的OCR軟件,將圖片識(shí)別成可以進(jìn)行編輯的文本內(nèi)容[6]。通過(guò)調(diào)用Google翻譯來(lái)執(zhí)行翻譯工作,最終將識(shí)別出來(lái)的源語(yǔ)言文本內(nèi)容翻譯出目標(biāo)語(yǔ)言文本內(nèi)容,并將目標(biāo)語(yǔ)言文本內(nèi)容返回給客戶端。用戶可以對(duì)客戶端接收的源語(yǔ)言文本內(nèi)容以及目標(biāo)語(yǔ)言文本內(nèi)容進(jìn)行相應(yīng)的編輯操作,或者對(duì)文本內(nèi)容中感興趣的部分在互聯(lián)網(wǎng)上搜索[7]??蛻舳斯ぷ髁鞒淌疽鈭D如圖1所示。
結(jié)合客戶端的需求分析和工作流程,可以將客戶端的功能分為圖片保存、拍照、圖片編輯、在線搜索、設(shè)置語(yǔ)言類型、翻譯文本保存等??蛻舳说墓δ芙Y(jié)構(gòu)見圖2。
以縮短用戶獲取目標(biāo)翻譯本文的時(shí)間、提高翻譯準(zhǔn)確性為目的,對(duì)采集到的文本內(nèi)容進(jìn)行簡(jiǎn)單處理,并向服務(wù)器發(fā)送翻譯請(qǐng)求,將采集到的圖片信息傳輸給服務(wù)器,完成客戶端的結(jié)構(gòu)設(shè)計(jì)。
1.2 人工智能處理器設(shè)計(jì)
在服務(wù)端的所有組件中,人工智能處理屬于計(jì)算密集型的處理器,也是整個(gè)系統(tǒng)應(yīng)用性能的瓶頸。因此,需要多臺(tái)人工智能處理器并行處理用戶的服務(wù)請(qǐng)求,人工智能處理器的數(shù)量是根據(jù)用戶請(qǐng)求的數(shù)量確定的,處理器數(shù)量越多,翻譯的速度就越快。人工智能技術(shù)作用于包含待識(shí)別文本信息的數(shù)字圖像,預(yù)處理數(shù)字圖像后,利用文本信息的定位、分割和提取算法,將待識(shí)別的文本信息提取出來(lái)[8],通過(guò)模式識(shí)別算法完成提取文本信息形態(tài)特征的分析,最后得到目標(biāo)文本信息的標(biāo)準(zhǔn)編碼,將結(jié)果輸出[9]。人工智能處理流程如圖 3所示。
人工智能處理器的功能實(shí)現(xiàn)是基于Tesseract?OCR2.3,它是一個(gè)在實(shí)驗(yàn)室內(nèi)開發(fā)的人工智能引擎,谷歌對(duì)Tesseract?OCR2.3進(jìn)行了優(yōu)化,使得它已經(jīng)成為人工智能領(lǐng)域中精度最高的開源引擎,可以支持中文,使用命令行方式調(diào)用[10]。人工智能處理器的結(jié)構(gòu)如圖4所示。
基于用戶需求分析,設(shè)計(jì)客戶端的工作流程,結(jié)合客戶端的需求分析,完成客戶端的結(jié)構(gòu)設(shè)計(jì);利用人工智能技術(shù)確定人工智能處理流程,通過(guò)人工智能處理的實(shí)現(xiàn),完成人工智能處理器的結(jié)構(gòu)設(shè)計(jì),從而實(shí)現(xiàn)系統(tǒng)的硬件設(shè)計(jì)。
2 大學(xué)人力資源管理系統(tǒng)軟件設(shè)計(jì)
2.1 計(jì)算句子相似度
句子相似度算法先根據(jù)詞性特性對(duì)相似的句子進(jìn)行粗選,然后進(jìn)一步精細(xì)選擇,再計(jì)算句子的相似度。該方法雖然考慮句子中每一個(gè)詞的詞頻特征,也對(duì)詞語(yǔ)賦予了不同的權(quán)值,但是缺乏詞語(yǔ)黏著性,造成長(zhǎng)句子或者詞頻低的句子相似度的計(jì)算偏差大[11],反而降低了系統(tǒng)的翻譯速度。計(jì)算句子相似度時(shí)先利用倒排索引文件獲取句子的編號(hào),利用編號(hào)得到將要計(jì)算的句子內(nèi)容[12]。相似度計(jì)算流程如圖5所示。
根據(jù)句子相似度計(jì)算流程,將已經(jīng)選擇好的n個(gè)句子相似度計(jì)算結(jié)果上傳到相似句子組合模塊中[13],句子相似度計(jì)算公式為:
式中:Words(A)表示輸入句子A的單詞集合;Wordsi(A)表示單詞集合中的第i個(gè)元素;Len ( )表示字符串長(zhǎng)度;Sim Word(A,B)表示詞形相似度。詞形相似度計(jì)算可以提高句子翻譯的質(zhì)量。
2.2 消除句子歧義
句子歧義的消除可以提高機(jī)器自動(dòng)翻譯的準(zhǔn)確性,實(shí)現(xiàn)機(jī)器自動(dòng)翻譯。一方面是由詞性引起的歧義,同一個(gè)單詞可能會(huì)具有不同的詞性,也使得翻譯出來(lái)的意思不同[14];另一方面是由于同一個(gè)單詞在不同的語(yǔ)境中,翻譯出來(lái)的意思也是不同的。針對(duì)消除由詞性引起的句子歧義,先分清單詞的詞性,本文利用上文計(jì)算的相似度對(duì)單詞進(jìn)行詞性標(biāo)注,根據(jù)標(biāo)注后的詞性確定該單詞在句子中的實(shí)際含義,消除了歧義,完成整句翻譯[15]。針對(duì)語(yǔ)境不同引起的句子歧義,需要利用本體來(lái)消除歧義,首先遍歷所要翻譯的句子,將每一個(gè)單詞在領(lǐng)域詞典中查找,如果可以在詞典中查找到,就可以認(rèn)為該詞在特殊詞義領(lǐng)域內(nèi),可以賦予其特定的含義,這樣就完成了歧義消除,實(shí)現(xiàn)機(jī)器自動(dòng)翻譯。綜上所述,依托客戶端的結(jié)構(gòu)設(shè)計(jì)和人工智能處理器設(shè)計(jì),完成了系統(tǒng)的硬件設(shè)計(jì);基于句子相似度的計(jì)算和歧義的消除,完成了系統(tǒng)的軟件設(shè)計(jì),從而實(shí)現(xiàn)了機(jī)器自動(dòng)翻譯系統(tǒng)的設(shè)計(jì)。
3 仿真測(cè)試 3.1 測(cè)試方法及步驟分析 ? 為了驗(yàn)證基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng)的有效性,本文對(duì)常見的英文句型進(jìn)行了測(cè)試。系統(tǒng)在測(cè)試時(shí)從句子資源庫(kù)中隨機(jī)抽取了50個(gè)句子進(jìn)行翻譯測(cè)試。測(cè)試的步驟如下:
1)選擇待翻譯句子,如:Foxen is a famous winery.
2)標(biāo)注每一個(gè)單詞的詞性并將詞型還原,分清句子中每一個(gè)單詞的具體類型以及單詞的原型,如表1所示。
3)消除歧義。在本體詞典中,F(xiàn)oxen 和 winery 都會(huì)出現(xiàn),而單詞 Foxen是單詞 winery的一個(gè)個(gè)體,因此完全可以認(rèn)為兩個(gè)單詞都存在于詞語(yǔ)資源庫(kù)中。
4)得到對(duì)應(yīng)的漢語(yǔ)詞匯,如表2所示。
5)句法分析。利用人工智能技術(shù)構(gòu)建語(yǔ)法樹,如圖6所示。
6)選擇句子翻譯模板。通過(guò)分析句子語(yǔ)法樹得出,待翻譯句子是由“名詞+動(dòng)詞+名詞”組成,而在動(dòng)詞方面選擇的是系動(dòng)詞,構(gòu)成了“主系表”結(jié)構(gòu),語(yǔ)序與英文一致,因此可以直接翻譯。
7)得出翻譯結(jié)果。
3.2 實(shí)驗(yàn)結(jié)果分析
利用上述的實(shí)驗(yàn)方法和步驟,得到下列實(shí)驗(yàn)結(jié)果,如圖7所示。
從實(shí)驗(yàn)結(jié)果中可以得出,相同時(shí)間內(nèi),基于文本庫(kù)的機(jī)器自動(dòng)翻譯系統(tǒng)在翻譯句子時(shí),只能翻譯出兩個(gè)英語(yǔ)單詞,且在翻譯準(zhǔn)確率方面,也會(huì)出現(xiàn)翻譯不完全的現(xiàn)象;而基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng)在翻譯句子時(shí),可以將整個(gè)句子完整地翻譯出來(lái),不會(huì)丟下任何一個(gè)簡(jiǎn)單或復(fù)雜的單詞,且在翻譯準(zhǔn)確率方面,可以將整個(gè)句子準(zhǔn)確地翻譯出來(lái)。因此可以得出基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng),相比于基于文本庫(kù)的機(jī)器自動(dòng)翻譯系統(tǒng)具有較快的翻譯速度和較高的準(zhǔn)確度。
4 結(jié) 語(yǔ)
本文提出基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng)設(shè)計(jì)。依托機(jī)器自動(dòng)翻譯系統(tǒng)的硬件設(shè)計(jì)和軟件設(shè)計(jì),實(shí)現(xiàn)了本文的研究。結(jié)果表明,基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng),相比于基于文本庫(kù)的機(jī)器自動(dòng)翻譯系統(tǒng)在句子翻譯速度和準(zhǔn)確率方面都有所提高。希望本文的研究可以為基于人工智能技術(shù)的機(jī)器自動(dòng)翻譯系統(tǒng)設(shè)計(jì)提供理論依據(jù)。
參 考 文 獻(xiàn)
[1] 羅華珍,潘正芹,易永忠 . 人工智能翻譯的發(fā)展現(xiàn)狀與前景分析[J].電子世界,2017(21):21?23.
[2] 邢蕾 .英漢機(jī)器翻譯中譯文自動(dòng)生成系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(24):86?89.
[3] 張睿 .基于短語(yǔ)相似度的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)設(shè)計(jì)[J].自動(dòng)化與儀器儀表,2017(8):66?67.
[4] 鄭錦龍,林國(guó)銘,孫永 . 穿戴式手語(yǔ)識(shí)別翻譯系統(tǒng)[J]. 通訊世界,2017(7):238?239.
[5] 張勝剛,艾山·吾買爾,吐爾根·依布拉音,等 .基于神經(jīng)網(wǎng)絡(luò)的維漢翻譯系統(tǒng)實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2018,41(24):157?161.
[6] 劉洋 .神經(jīng)機(jī)器翻譯前沿進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):1144?1149.
[7] 艷萍 . 淺談氣象服務(wù)產(chǎn)品漢蒙自動(dòng)翻譯系統(tǒng)[J]. 文存閱刊,2018(4):191.
[8] 梁亞敏,梁利利 .基于智能手機(jī)的英語(yǔ)輔助翻譯學(xué)習(xí)系統(tǒng)構(gòu)建[J].自動(dòng)化與儀器儀表,2018(8):142?144.
[9] 黃政豪,崔榮一 .基于術(shù)語(yǔ)自動(dòng)抽取的科技文獻(xiàn)翻譯輔助系統(tǒng)的設(shè)計(jì)[J].延邊大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,43(3):259?263.
[10] 徐英卓,賈歡 .基于樹結(jié)構(gòu)的本體概念相似度計(jì)算方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(3):275?279.
[11] 李峰,侯加英,曾榮仁,等 . 融合詞向量的多特征句子相似度計(jì)算方法研究[J].計(jì)算機(jī)科學(xué)與探索,2017,11(4):608?618.
[12] 彭琦,朱新華,陳意山,等 . 基于信息內(nèi)容的詞林詞語(yǔ)相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2018,35(2):400?404.
[13] 熊明明,李英,郭劍毅,等 .基于 CRFs和歧義模型的越南語(yǔ)分詞[J].數(shù)據(jù)采集與處理,2017,32(3):636?642.
[14] 熊明明,劉艷超,郭劍毅,等 . 基于最大熵模型的越南語(yǔ)交叉歧義消解[J].中文信息學(xué)報(bào),2017,31(4):63?69.
[15] 余倩 . 基于特征提取算法的交互式英漢翻譯系統(tǒng)設(shè)計(jì)[J]. 現(xiàn)代電子技術(shù),2018,41(4):161?163.
作者簡(jiǎn)介: 李??蓉(1983—),女,陜西西安人,碩士,講師,主要研究方向?yàn)橛?jì)算機(jī)應(yīng)用、翻譯系統(tǒng)設(shè)計(jì)。 周美麗(1981—),女,陜西橫山人,碩士研究生,副教授,主要從事信號(hào)檢測(cè)、圖像處理等方面的研究工作。
編輯:黃飛
?
評(píng)論