99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

成功的文本分析工作流程的四個(gè)步驟

星星科技指導(dǎo)員 ? 來(lái)源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Seth DeLand ? 2022-06-20 14:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文本分析(從原始人類(lèi)語(yǔ)言中發(fā)現(xiàn)隱藏模式以實(shí)現(xiàn)更好的決策和預(yù)測(cè)的過(guò)程)為工業(yè)和預(yù)測(cè)性維護(hù)系統(tǒng)提供了多種好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關(guān)維護(hù)記錄的見(jiàn)解,并構(gòu)建故障預(yù)測(cè)算法以預(yù)防潛在問(wèn)題。

以非公路商業(yè)空間為例,在建筑工地使用重型設(shè)備:如果一臺(tái)重型設(shè)備發(fā)生故障,它可能會(huì)在修復(fù)系統(tǒng)所需的時(shí)間和成本以及停機(jī)時(shí)間之間成為代價(jià)高昂的故障。施工停滯時(shí)的現(xiàn)場(chǎng)。傳統(tǒng)上,來(lái)自該設(shè)備的遙測(cè)數(shù)據(jù)已被用于構(gòu)建可預(yù)測(cè)未來(lái)故障的預(yù)測(cè)性維護(hù)模型。但是,機(jī)械師和操作員的文字說(shuō)明中也包含有關(guān)過(guò)去故障及其原因的寶貴信息。工程師可以利用這些文本數(shù)據(jù)來(lái)增強(qiáng)預(yù)測(cè)性維護(hù)模型,并識(shí)別應(yīng)該解決的模式和故障模式。

文本分析的挑戰(zhàn)在于非結(jié)構(gòu)化的原始文本數(shù)據(jù)集的龐大數(shù)量,這可能會(huì)使分析工具不堪重負(fù)。這使得工程師更難快速、直觀地提取用戶可能獲得的所有有價(jià)值的信息。然而,工程師可以通過(guò)正確的工具和堅(jiān)持端到端的工作流程來(lái)克服這些障礙。

當(dāng)談到端到端的文本分析工作流程時(shí),工程師需要知道什么?工作流程有四個(gè)主要階段:

poYBAGKwGbWAZSGZAAB0svF0DfA535.png

圖 1. 端到端文本分析工作流程。

第 1 階段:數(shù)據(jù)訪問(wèn)和探索

文本數(shù)據(jù)將來(lái)自多種來(lái)源,包括數(shù)據(jù)庫(kù)、內(nèi)部文件存儲(chǔ)庫(kù)和 Internet,并采用多種格式。正確準(zhǔn)備數(shù)據(jù)是成功工作流程的關(guān)鍵因素。適當(dāng)?shù)臄?shù)據(jù)準(zhǔn)備將原始文本數(shù)據(jù)清理并預(yù)處理為“清理數(shù)據(jù)”以進(jìn)行分析。

以詞云為例。該模型將數(shù)據(jù)轉(zhuǎn)換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常用的短語(yǔ)。當(dāng)與應(yīng)用他們的領(lǐng)域?qū)I(yè)知識(shí)的工程師結(jié)合使用時(shí),詞云等可視化有利于更大的文本分析工作流程,因?yàn)楣こ處熆梢院苋菀椎匕l(fā)現(xiàn)數(shù)據(jù)可能遺漏的地方或需要更多清理的地方,因?yàn)樗麄兞私饨o定的典型問(wèn)題或問(wèn)題環(huán)境或用例。

第 2 階段:數(shù)據(jù)預(yù)處理

這些可視化還有助于指導(dǎo)需要采取的下一步行動(dòng)。如圖 2 所示,停用詞(不增加價(jià)值的低信息詞)很常見(jiàn),它們的存在會(huì)影響可視化結(jié)果。在工程師開(kāi)始模型開(kāi)發(fā)過(guò)程之前,他們必須清理原始文本數(shù)據(jù),以便過(guò)濾掉這些“停用詞”并輸入真實(shí)、重要的數(shù)據(jù)以傳遞給建模過(guò)程。預(yù)處理階段允許用戶從原始文本中提取有意義的單詞。

數(shù)據(jù)清洗通常是數(shù)據(jù)分析中最耗時(shí)的部分,根據(jù)數(shù)據(jù)量,清洗步驟可能需要多次迭代。但是,由于投入額外的時(shí)間和所需資源而產(chǎn)生的投資回報(bào)率允許稍后在文本分析工作流程中建立更準(zhǔn)確和成功的模型。在許多情況下,干凈的詞云會(huì)傳遞更多關(guān)于文本頁(yè)面上實(shí)際內(nèi)容的信息。

pYYBAGKwGb6ANMsjAADTUnqbRM0882.png

圖 2. 預(yù)處理數(shù)據(jù)。

Text Analytics Toolbox等工具通過(guò)為文本數(shù)據(jù)的預(yù)處理、分析和建模提供算法和可視化,幫助用戶為模型構(gòu)建過(guò)程做好準(zhǔn)備,從而為解決數(shù)據(jù)清理痛點(diǎn)的工程師提供支持。

這些工具從流行的文件格式中提取文本,對(duì)來(lái)自設(shè)備日志、新聞提要、調(diào)查、操作員報(bào)告和社交媒體等來(lái)源的原始文本進(jìn)行預(yù)處理,提取利用文本、數(shù)字和其他類(lèi)型的數(shù)據(jù),將文本轉(zhuǎn)換為數(shù)字表示,然后構(gòu)建統(tǒng)計(jì)模型。

第 3 階段:預(yù)測(cè)模型構(gòu)建

清理和預(yù)處理數(shù)據(jù)后,就可以開(kāi)始使用機(jī)器或深度學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型了。

這就是文本分析的優(yōu)勢(shì)所在:它發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式并以直觀的格式顯示它們,使用戶能夠消化數(shù)據(jù),然后采取糾正措施來(lái)解決問(wèn)題,然后再進(jìn)一步進(jìn)入工作流程。

以將純文本數(shù)據(jù)轉(zhuǎn)化為數(shù)字形式為例。工程師可以應(yīng)用諸如“詞袋”之類(lèi)的建模方法,它根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個(gè)數(shù)字矩陣,顯示每個(gè)詞的使用頻率。然后,工程師可以從那里使用預(yù)測(cè)模型,例如潛在狄利克雷分配 (LDA) 模型,該模型可以擬合到詞/頻矩陣,以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見(jiàn)解。

如圖 3 所示,LDA 模型可以生成與數(shù)據(jù)中的“隱藏主題”相關(guān)的詞云,顯示模式如何從將文本數(shù)據(jù)擬合到該預(yù)測(cè)模型中開(kāi)始出現(xiàn),有助于為相應(yīng)問(wèn)題的創(chuàng)建解決方案提供信息。

poYBAGKwGcWAb6TOAANzQjKFti4838.png

圖 3. 使用 LDA 方法自動(dòng)識(shí)別工廠報(bào)告數(shù)據(jù)中的主題。主題 2 與電子問(wèn)題有關(guān)。主題 3 與流體系統(tǒng)的問(wèn)題有關(guān)。

一旦模型(例如上面示例中的模型)使用新的敘述進(jìn)行測(cè)試以驗(yàn)證模型的預(yù)測(cè)是否正確,就可以建立自動(dòng)警報(bào),以便系統(tǒng)在任何需要注意的問(wèn)題上向響應(yīng)團(tuán)隊(duì)發(fā)送標(biāo)志。如果位置數(shù)據(jù)也可用,結(jié)果會(huì)發(fā)現(xiàn)某些主題(例如,標(biāo)記的問(wèn)題)與其位置數(shù)據(jù)之間存在相關(guān)性,因此該模型還可以通過(guò)使用多個(gè)數(shù)據(jù)流來(lái)補(bǔ)充文本數(shù)據(jù),提醒響應(yīng)團(tuán)隊(duì)注意基礎(chǔ)設(shè)施方面潛在的更大問(wèn)題。

第 4 階段:洞察力和預(yù)測(cè)模型部署

使用文本分析設(shè)置模型并驗(yàn)證可接受的性能后,有多種方法可以與工程團(tuán)隊(duì)和/或管理層共享結(jié)果和模型,包括生成報(bào)告或交互式筆記本(例如,MATLAB 實(shí)時(shí)編輯器)、溝通將數(shù)據(jù)傳輸?shù)阶烂婊?Web 應(yīng)用程序(例如,MATLAB App Designer),或?qū)?yīng)用程序托管在生產(chǎn)服務(wù)器或 Web 應(yīng)用程序服務(wù)器上。

對(duì)于工業(yè)自動(dòng)化、機(jī)械、汽車(chē)制造、航空航天設(shè)計(jì)或能源分配等行業(yè)的工程師來(lái)說(shuō),文本分析可以幫助他們執(zhí)行復(fù)雜的數(shù)值分析,以識(shí)別可以帶來(lái)更好結(jié)果并改進(jìn)預(yù)測(cè)性維護(hù)等功能的想法和概念組。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • matlab
    +關(guān)注

    關(guān)注

    189

    文章

    3001

    瀏覽量

    234117
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    822

    瀏覽量

    32030
  • 航空航天
    +關(guān)注

    關(guān)注

    1

    文章

    424

    瀏覽量

    25126
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    四個(gè)方面深入剖析富捷電阻的優(yōu)勢(shì)

    理成本的電阻產(chǎn)品系列,為電子行業(yè)提供了一個(gè)可靠的選擇。本文將從產(chǎn)品結(jié)構(gòu)、同業(yè)對(duì)比、成本分析以及品質(zhì)保障四個(gè)方面深入剖析富捷電阻的優(yōu)勢(shì),展現(xiàn)其如何在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出。
    的頭像 發(fā)表于 05-09 10:47 ?450次閱讀
    從<b class='flag-5'>四個(gè)</b>方面深入剖析富捷電阻的優(yōu)勢(shì)

    ADS1211如何給個(gè)道的初始化、四個(gè)通道又是如何輪流進(jìn)行A/D轉(zhuǎn)換?

    使用的。 而我設(shè)計(jì)的板卡中,ADS1211是通道輪流工作。在此,小弟急需知曉ADS1211如何給個(gè)道的初始化、四個(gè)通道又是如何輪流進(jìn)行
    發(fā)表于 02-13 07:53

    NX CAD軟件:數(shù)字化工作流程解決方案(CAD工作流程)

    NXCAD——數(shù)字化工作流程解決方案(CAD工作流程)使用西門(mén)子領(lǐng)先的產(chǎn)品設(shè)計(jì)軟件NXCAD加速執(zhí)行基于工作流程的解決方案。我們?cè)诹私庑袠I(yè)需求方面累積了多年的經(jīng)驗(yàn),并據(jù)此針對(duì)各個(gè)行業(yè)的具體需求提供
    的頭像 發(fā)表于 02-06 18:15 ?436次閱讀
    NX CAD軟件:數(shù)字化<b class='flag-5'>工作流程</b>解決方案(CAD<b class='flag-5'>工作流程</b>)

    模數(shù)轉(zhuǎn)換電路的四個(gè)過(guò)程

    模數(shù)轉(zhuǎn)換(Analog-to-Digital Conversion,簡(jiǎn)稱(chēng)ADC)是將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的關(guān)鍵過(guò)程,廣泛應(yīng)用于通信、數(shù)據(jù)采集、信號(hào)處理等領(lǐng)域。模數(shù)轉(zhuǎn)換電路的設(shè)計(jì)與實(shí)現(xiàn)涉及多個(gè)關(guān)鍵步驟,通常可以分為四個(gè)主要過(guò)程:采樣、保持、量化和編碼。本文將詳細(xì)
    的頭像 發(fā)表于 02-03 16:12 ?1491次閱讀

    AI工作流自動(dòng)化是做什么的

    AI工作流自動(dòng)化是指利用人工智能技術(shù),對(duì)工作流程中的重復(fù)性、規(guī)則明確的任務(wù)進(jìn)行自動(dòng)化處理的過(guò)程。那么,AI工作流自動(dòng)化是做什么的呢?接下來(lái),AI部落小編為您分享。
    的頭像 發(fā)表于 01-06 17:57 ?721次閱讀

    使用pdfDocs提高工作效率,改進(jìn)PDF工作流程

    使用pdfDocs提高工作效率,改進(jìn)PDF工作流程。 pdfDocs是一款PDF管理應(yīng)用程序,可幫助法律專(zhuān)業(yè)人士創(chuàng)建、編輯、整理、裝訂、編輯和保護(hù) PDF 文檔,提高工作效率和安全性。 為什么選擇
    的頭像 發(fā)表于 12-21 15:31 ?483次閱讀
    使用pdfDocs提高<b class='flag-5'>工作</b>效率,改進(jìn)PDF<b class='flag-5'>工作流程</b>

    LJ40B4-20J/EZ常開(kāi)型接近開(kāi)關(guān)工作流程及接線圖

    常開(kāi)型接近開(kāi)關(guān)的工作流程包括無(wú)信號(hào)觸發(fā)狀態(tài)、信號(hào)觸發(fā)狀態(tài)和信號(hào)輸出與應(yīng)用三個(gè)步驟。其接線方式可能因型號(hào)和制造商而異,但通常遵循兩線制或三線制的接線原則。在實(shí)際應(yīng)用中,應(yīng)根據(jù)具體需求和場(chǎng)景選擇合適的接近開(kāi)關(guān)型號(hào)和接線方式。
    的頭像 發(fā)表于 12-09 10:42 ?941次閱讀

    如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

    使用自然語(yǔ)言處理(NLP)分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過(guò)程,涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程
    的頭像 發(fā)表于 12-05 15:27 ?1575次閱讀

    用CPLD控制ADS7229,工作流程是怎么樣的?

    用CPLD控制ADS7229,因?yàn)樾枰玫綘顟B(tài)機(jī),需要了解7229的工作流程是怎么樣的,手冊(cè)上沒(méi)有看懂,望大俠指點(diǎn)! 比如:流程一:通過(guò)SPI接口進(jìn)行寄存器(CFR)配置——》啟動(dòng)轉(zhuǎn)換-——》等待轉(zhuǎn)換完成——》輸出數(shù)據(jù)(sdo)——》啟動(dòng)下一次轉(zhuǎn)換?
    發(fā)表于 12-03 07:50

    淺談無(wú)刷電機(jī)的工作流程

    上一期的芝識(shí)課堂,我們跟大家一起分析了無(wú)刷電機(jī)的四個(gè)功能單元,并詳細(xì)分析了PWM和逆變器單元的工作情況,今天我們繼續(xù)來(lái)熟悉無(wú)刷電機(jī)工作流程
    的頭像 發(fā)表于 11-12 13:46 ?1214次閱讀
    淺談無(wú)刷電機(jī)的<b class='flag-5'>工作流程</b>

    邏輯組件中的流程塊節(jié)點(diǎn)通常出于什么用途

    邏輯組件中的流程塊節(jié)點(diǎn)是流程圖、狀態(tài)圖、序列圖等圖表中的基本元素,它們用于表示業(yè)務(wù)流程、工作流程、算法步驟、系統(tǒng)狀態(tài)等。這些節(jié)點(diǎn)在軟件開(kāi)發(fā)、
    的頭像 發(fā)表于 10-15 14:38 ?604次閱讀

    人員定位系統(tǒng)的原理和工作流程

    人員定位是一種用于確定或跟蹤人員位置的技術(shù)。隨著科技的快速發(fā)展,人員定位系統(tǒng)變得越來(lái)越常見(jiàn),在許多不同的領(lǐng)域得到了廣泛的應(yīng)用。本文將探討人員定位系統(tǒng)的原理和工作流程,包括定位技術(shù)、數(shù)據(jù)傳輸和處理
    的頭像 發(fā)表于 09-03 10:42 ?1544次閱讀
    人員定位系統(tǒng)的原理和<b class='flag-5'>工作流程</b>

    從記錄到管理:?jiǎn)伪倍?b class='flag-5'>工作記錄儀如何優(yōu)化工作流程

    在這個(gè)快節(jié)奏的時(shí)代,每一分效率的提升都是企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵。從繁瑣的手工記錄到智能化的數(shù)據(jù)管理,技術(shù)的飛躍正悄然改變著我們的工作方式。頂堅(jiān)單北斗工作記錄儀如何成為優(yōu)化工作流程的得力助手,實(shí)現(xiàn)從記錄
    的頭像 發(fā)表于 08-30 11:09 ?512次閱讀
    從記錄到管理:?jiǎn)伪倍?b class='flag-5'>工作</b>記錄儀如何優(yōu)化<b class='flag-5'>工作流程</b>

    行云流水線 滿足你對(duì)工作流編排的一切幻想~skr

    的核心組成部分,旨在加速軟件交付、提高質(zhì)量和實(shí)現(xiàn)持續(xù)改進(jìn)。流水線的核心是流水線模型,是實(shí)現(xiàn)工作流編排,執(zhí)行的重要基石,一個(gè)優(yōu)秀的流水線模型可以覆蓋用戶更多的實(shí)踐場(chǎng)景,按照用戶的所思所想支持編排相應(yīng)的工作流程,通過(guò)模型的分層設(shè)計(jì),
    的頭像 發(fā)表于 08-05 13:42 ?548次閱讀

    IGBT的四個(gè)主要參數(shù)

    IGBT的四個(gè)主要參數(shù)對(duì)于選擇合適的IGBT器件至關(guān)重要。本文將介紹IGBT的四個(gè)主要參數(shù):電壓等級(jí)、電流等級(jí)、開(kāi)關(guān)頻率和熱性能。 1. 電壓等級(jí) 電壓等級(jí)是IGBT的一個(gè)重要參數(shù),它決定了IGBT能夠承受的最大電壓。電壓等級(jí)的
    的頭像 發(fā)表于 07-25 11:05 ?7654次閱讀