TensorFlow現(xiàn)在可以支持Unicode，這是一種標(biāo)準(zhǔn)編碼系統(tǒng)

TensorFlow 現(xiàn)在可以支持 Unicode，這是一種標(biāo)準(zhǔn)編碼系統(tǒng)，可以表示幾乎所有語言的字符。處理自然語言時(shí)，了解字符的編碼方式非常重要。在像英語這樣的小字符集的語言中，每個(gè)字符都可以使用 ASCII 進(jìn)行表示。但是這種方法對(duì)于其他語言來說并不實(shí)用，例如中文，這些語言有數(shù)千個(gè)字符。即使處理英文文本，Emojis 等特殊字符也不能用 ASCII 表示。

定義字符及其編碼的最常用標(biāo)準(zhǔn)是 Unicode，它幾乎支持所有語言。對(duì)于 Unicode，每個(gè)字符使用唯一的整數(shù) code point 表示，其值介于 0 和 0x10FFFF 之間。當(dāng)按順序放置 code point 時(shí)，將形成 Unicode 字符串。

Unicode tutorial colab展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 時(shí)，有兩種標(biāo)準(zhǔn)方式來表示 Unicode 字符串：

作為整數(shù)向量，其中每個(gè)位置包含單個(gè) code point

作為字符串，使用字符編碼將 code point 序列編碼到字符串中。有許多字符編碼，其中一些最常見的是 UTF-8，UTF-16 等

以下代碼分別使用 code point、UTF-8 和 UTF-16 顯示字符串 “語言處理” 的編碼。

當(dāng)然，您可能需要在各種表示方式之間進(jìn)行轉(zhuǎn)換，而 TensorFlow 1.13 已添加了執(zhí)行此操作的函數(shù)：

tf.strings.unicode_decode: 將字符串標(biāo)量轉(zhuǎn)換為 code point 的向量（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode）

tf.strings.unicode_encode: 將 code point 向量轉(zhuǎn)換為字符串標(biāo)量（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode）

tf.strings.unicode_transcode: 將字符串標(biāo)量轉(zhuǎn)換為不同的編碼（https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode）

因此，如果要將上述示例中的 UTF-8 解碼為 code point 向量，則可以執(zhí)行以下操作：

當(dāng)解碼包含多個(gè)字符串的 Tensor 時(shí)，字符串可能具有不同的長(zhǎng)度。 unicode_decode 將結(jié)果作為 RaggedTensor 返回，其中內(nèi)部維度的長(zhǎng)度根據(jù)每個(gè)字符串中的字符數(shù)而變化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
969

瀏覽量
55781
Unicode

Unicode

+關(guān)注

關(guān)注
0

文章
25

瀏覽量
12738
tensorflow

tensorflow

+關(guān)注

關(guān)注
13

文章
330

瀏覽量
61183

原文標(biāo)題：TensorFlow 支持 Unicode 編碼

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

Tensorflowers
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot TensorFlow Lite 微控制器
Hot 一款通過AI技術(shù)自動(dòng)批改數(shù)學(xué)作業(yè)的APP

New 如何將Flax/JAX模型轉(zhuǎn)換為TFLite并在原生Android應(yīng)用中運(yùn)行呢
New 如何從notebook實(shí)驗(yàn)過渡到云中部署

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實(shí)

腦極體
15小時(shí)前

398 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
3小時(shí)前

202 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
3小時(shí)前

216 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
3小時(shí)前

199 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點(diǎn)

駿龍電子
3小時(shí)前

220 閱讀

Agilent Technologies 85052D 3.

賈桂林
887

5積分

21下載

第2節(jié)《鴻蒙OS開發(fā)環(huán)境搭建》

o_dream
0.44 MB

免費(fèi)

19下載

Gnomecast支持轉(zhuǎn)碼和字幕的Linux GUI

蕭藹晨
0.91 MB

2積分

1下載

MDserver-Mac Mac上PHP開發(fā)環(huán)境

王飛
1.31 MB

2積分

1下載

PCM2702 USB DAC開源項(xiàng)目

juju宇哥
0.04 MB

2積分

8下載

省錢+環(huán)保+個(gè)性：打造一臺(tái)永不“過時(shí)”的自定義電腦！

早知
1天前

316 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測(cè)及顯示

jinglixixi
1天前

533 閱讀

【RA-Eco-RA6M4開發(fā)板評(píng)測(cè)】+01+開箱測(cè)評(píng)+UART+PWM+LED

jf_18702540
2天前

501 閱讀

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】2、打造復(fù)古游戲機(jī)（Batocera鏡像+FBNeo虛擬機(jī)，多款游戲ROM分享）

左岸cpx
2天前

525 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+兩種開發(fā)板間的比較

jinglixixi
2天前

468 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

TensorFlow現(xiàn)在可以支持Unicode，這是一種標(biāo)準(zhǔn)編碼系統(tǒng)

評(píng)論

TensorFlow現(xiàn)在可以支持Unicode，這是一種標(biāo)準(zhǔn)編碼系統(tǒng)