99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓AI和網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁(yè)抓取、收集數(shù)據(jù)等工作,有用嗎?

如意 ? 來(lái)源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-10-23 16:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“互聯(lián)網(wǎng)上有很多數(shù)據(jù)”,這么說(shuō)太保守了。事實(shí)上,2020年,“數(shù)字宇宙”預(yù)計(jì)將擁有40萬(wàn)億字節(jié)或40澤字節(jié)(zettabytes)的信息,一個(gè)澤字節(jié)擁有的數(shù)據(jù)足以填滿大約五分之一曼哈頓大小的數(shù)據(jù)中心。

可供分析的信息如此之多,將收集數(shù)據(jù)的任務(wù)留給AI就顯得合情合理了。網(wǎng)絡(luò)機(jī)器人能以令人難以置信的速度抓取網(wǎng)頁(yè),提取所需的相關(guān)信息。不過(guò),盡管許多數(shù)據(jù)科學(xué)家和營(yíng)銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網(wǎng)絡(luò)人工智能日益普及,網(wǎng)絡(luò)機(jī)器人還是逐漸被污名化了。

對(duì)人工智能的大部分負(fù)面印象是由好萊塢電影和科幻小說(shuō)間接造成的,畢竟在這些作品中,即使最美好愜意的時(shí)候也要提防著AI。此外,某些web用戶以不道德的方式使用網(wǎng)絡(luò)機(jī)器人,導(dǎo)致即便是專業(yè)、誠(chéng)心使用數(shù)據(jù)的人也備受打擊。

對(duì)于許多專業(yè)人士來(lái)說(shuō),網(wǎng)頁(yè)抓取仍然是必不可少的工具。那么,對(duì)于與網(wǎng)絡(luò)機(jī)器人的污名,我們能做些什么呢?

首先,網(wǎng)頁(yè)抓取是什么

你可以簡(jiǎn)單地把網(wǎng)頁(yè)抓取行為理解為數(shù)據(jù)提取。盡管數(shù)據(jù)科學(xué)家和其他專業(yè)人士使用抓取來(lái)分析非常復(fù)雜的數(shù)字信息棧,但從網(wǎng)站復(fù)制粘貼文本的行為本身就可以被認(rèn)作一種簡(jiǎn)單的抓取形式。

然而,就算可以在網(wǎng)站上盡情訪問(wèn),由于可用信息太多,可能也要花費(fèi)非常長(zhǎng)的時(shí)間從來(lái)源處收集數(shù)據(jù)。大多數(shù)情況下,網(wǎng)頁(yè)抓取都是留給人工智能來(lái)完成的,人工智能會(huì)將檢索到的數(shù)據(jù)進(jìn)行透徹分析以達(dá)到各種目的。雖然這對(duì)網(wǎng)絡(luò)爬蟲(chóng)來(lái)說(shuō)極為便利,但網(wǎng)站所有者和旁觀者都非常擔(dān)心人工智能在網(wǎng)絡(luò)上的“濫用”

使用網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁(yè)抓取會(huì)更好嗎

有這么多的信息要分析,求助于人工智能來(lái)收集數(shù)據(jù)理所當(dāng)然。實(shí)際上,谷歌本身就是為感興趣的各方提供網(wǎng)頁(yè)抓取工具最可信的來(lái)源之一。例如,你可以使用其數(shù)據(jù)集搜索引擎快速訪問(wèn)認(rèn)為可以免費(fèi)使用的數(shù)據(jù),甚至能定制搜索,以了解這些信息是否可用于商業(yè)用途。完成這些任務(wù)只需要幾秒鐘。

如果沒(méi)有谷歌AI如此高效檢查每個(gè)網(wǎng)站的相關(guān)數(shù)據(jù),恐怕無(wú)法實(shí)現(xiàn)這樣的速度。這是一個(gè)利用人工智能以純道德的方式為研究或商業(yè)收集有用信息的完美例子,其速度之快也證明了“網(wǎng)絡(luò)機(jī)器人”如何讓執(zhí)行網(wǎng)頁(yè)抓取任務(wù)變得如此容易。

人工智能流量變得如此普遍,如今已經(jīng)占到互聯(lián)網(wǎng)流量的一半以上。即便如此,我們還是容易忽視其造成的影響。

有人認(rèn)為,人工智能在互聯(lián)網(wǎng)流量中占主導(dǎo)地位令人擔(dān)憂。讓這一問(wèn)題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機(jī)器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。

使用網(wǎng)絡(luò)機(jī)器人來(lái)處理大量數(shù)據(jù)是合理的步驟。除了人工智能,在網(wǎng)頁(yè)數(shù)據(jù)抓取時(shí)考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進(jìn)行網(wǎng)絡(luò)抓取有很多優(yōu)點(diǎn),匿名性正是其中之一。比方說(shuō),如果你想對(duì)一個(gè)競(jìng)爭(zhēng)品牌進(jìn)行調(diào)研,并利用這些信息來(lái)確定改善自己公司發(fā)展的最佳方案,你可能不想讓別人知道自己訪問(wèn)了他們的網(wǎng)站。在這種情況下,使用代理既能訪問(wèn)、檢查數(shù)據(jù),又不會(huì)泄露身份,兩全其美。

做進(jìn)一步探討之前,先來(lái)快速回顧一下代理服務(wù)器:

代理服務(wù)器的設(shè)計(jì)目的是充當(dāng)用戶和web服務(wù)器之間的中間人。

功能多樣:個(gè)人和公司都能使用代理服務(wù)器來(lái)滿足特定需求。

代理的一個(gè)常見(jiàn)用途與網(wǎng)頁(yè)抓取有關(guān):使用代理服務(wù)器可以繞過(guò)網(wǎng)站管理員設(shè)置的限制,從而大量收集數(shù)據(jù)。

那么問(wèn)題來(lái)了,為什么要設(shè)置限制呢?這些數(shù)據(jù)不是可以在網(wǎng)上免費(fèi)獲得嗎?對(duì)人類用戶來(lái)說(shuō),是的。這里有一個(gè)典型的例子。價(jià)格聚合商的整個(gè)商業(yè)模式是建立在準(zhǔn)確信息之上的,它為“我在哪里能買(mǎi)到價(jià)格最低的X產(chǎn)品?”這個(gè)問(wèn)題提供確切答案。

盡管這對(duì)客戶來(lái)說(shuō)是一個(gè)省錢(qián)的好機(jī)會(huì),但供應(yīng)商對(duì)其他公司窺探他們的數(shù)據(jù)并不太感興趣,原因是聚合器的網(wǎng)絡(luò)爬蟲(chóng)軟件(通常稱為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)頁(yè)蜘蛛”)給網(wǎng)站帶來(lái)了額外的負(fù)載。因此,如果網(wǎng)站管理員懷疑給定的網(wǎng)絡(luò)活動(dòng)不是由真正的用戶進(jìn)行的,就會(huì)限制用戶訪問(wèn)網(wǎng)站。

代理的另一個(gè)實(shí)際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會(huì)顯示你是來(lái)自X國(guó)的真正用戶,你可自定義來(lái)自哪個(gè)國(guó)家。對(duì)住宅代理的需求很簡(jiǎn)單:(可疑的)網(wǎng)絡(luò)機(jī)器人活動(dòng)通常來(lái)自某些國(guó)家,所以即使是來(lái)自這些國(guó)家的真正用戶也經(jīng)常遇到地域限制。

此外,當(dāng)你試圖從數(shù)據(jù)源收集數(shù)據(jù)、卻因各種原因無(wú)法訪問(wèn)時(shí),使用代理尤其有用。在網(wǎng)絡(luò)抓取時(shí)有很多使用代理的方法,但為了在數(shù)字社區(qū)中建立信任,我們建議你堅(jiān)持使用那些可以建立品牌信任和權(quán)威的方法。

利用人類可見(jiàn)性和可信賴的品牌來(lái)對(duì)抗人工智能的污名

目前,人工智能發(fā)展速度確實(shí)超過(guò)了上網(wǎng)人數(shù)增長(zhǎng)速度。不過(guò),互聯(lián)網(wǎng)在未來(lái)幾年將會(huì)如何發(fā)展還不得而知,因此沒(méi)有理由立即斷定這一趨勢(shì)不可逆轉(zhuǎn),也不能斷定它代表著一種固有的消極趨勢(shì)。

要想扭轉(zhuǎn)網(wǎng)絡(luò)上有關(guān)人工智能流量的負(fù)面言論,最佳辦法就是讓互聯(lián)網(wǎng)上的人工智能使用恢復(fù)人性化。還需注意,要以建立信任的方式使用人工智能,無(wú)需考慮太多。

堅(jiān)持使用由高認(rèn)知度、可信賴的品牌提供的可信賴的產(chǎn)品和服務(wù)。

堅(jiān)持合乎道德的網(wǎng)頁(yè)抓取操作。不要濫用信任,忽略網(wǎng)站上robots.txt文件,或在短時(shí)間內(nèi)大量使用機(jī)器人程序。

以專業(yè)、負(fù)責(zé)的方式使用數(shù)據(jù)。核實(shí)你是否擁有將抓取獲得的數(shù)據(jù)用于預(yù)期目的的權(quán)限。

多多普及人工智能。多去和其他人說(shuō)說(shuō)如何以及為什么使用網(wǎng)絡(luò)抓取,讓人們對(duì)網(wǎng)絡(luò)抓取有更深的認(rèn)識(shí)。人們對(duì)使用人工智能獲取、研究大量數(shù)據(jù)的好處了解得越多,對(duì)網(wǎng)頁(yè)抓取和網(wǎng)絡(luò)機(jī)器人持負(fù)面看法的可能性就越小。

通過(guò)純粹的人工操作來(lái)手動(dòng)訪問(wèn)網(wǎng)站數(shù)據(jù)或許讓人很放心,但由于信息太多,這幾乎不可能。可用的數(shù)據(jù)量幾乎無(wú)窮無(wú)盡,使用人工智能是我們?yōu)g覽網(wǎng)站和盡可能高效分析數(shù)據(jù)的最佳手段。不過(guò),它或許還需要再加點(diǎn)兒“人情味”。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29730

    瀏覽量

    212828
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279573
  • 網(wǎng)頁(yè)抓取
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    1964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    通過(guò)網(wǎng)絡(luò)連接云端服務(wù)器進(jìn)行快速檢索和分析,然后利用語(yǔ)音合成技術(shù)將答案以自然流暢的語(yǔ)音反饋給用戶。同時(shí),借助開(kāi)發(fā)板的網(wǎng)絡(luò)連接功能,語(yǔ)音機(jī)器人還可以與后臺(tái)管理系統(tǒng)
    發(fā)表于 05-28 11:36

    詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人工作原理

    負(fù)責(zé)接收旅客的語(yǔ)音指令,以便機(jī)器人理解旅客的需求。 環(huán)境感知與信息融合 :這些傳感器收集到的信息會(huì)進(jìn)行融合處理。例如,激光雷達(dá)提供的距離信息和攝像頭捕捉的視覺(jué)信息相結(jié)合,能讓機(jī)器人更準(zhǔn)
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門(mén)的引路書(shū)

    ROS的全稱:Robot Operating System 機(jī)器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫(kù),是通信總線,協(xié)調(diào)多個(gè)傳感器 為了解決機(jī)器人里各廠商模塊不通用的問(wèn)題,機(jī)器人
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識(shí)

    、軟件開(kāi)發(fā)、系統(tǒng)集成環(huán)節(jié),讀者能夠全面了解一個(gè)完整的機(jī)器人應(yīng)用開(kāi)發(fā)過(guò)程。 實(shí)踐項(xiàng)目:除了案例分析,書(shū)中還設(shè)計(jì)了一些實(shí)踐項(xiàng)目,供讀者進(jìn)行動(dòng)手實(shí)踐。這些實(shí)踐項(xiàng)目涵蓋了從簡(jiǎn)單的傳感器
    發(fā)表于 04-27 11:24

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    識(shí)別聯(lián)調(diào)。 進(jìn)迭時(shí)空致力于為智能機(jī)器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI視覺(jué)感知、
    發(fā)表于 04-25 17:59

    如何用Brower Use WebUI實(shí)現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)智能抓取與分析?

    數(shù)據(jù)時(shí),不會(huì)被網(wǎng)站反爬機(jī)制識(shí)別和封禁,能穩(wěn)定有效地獲取數(shù)據(jù)和執(zhí)行任務(wù)。除了數(shù)據(jù)采集外,Browser-use還能抓取網(wǎng)頁(yè)全部交互元素,自動(dòng)完
    的頭像 發(fā)表于 04-17 17:48 ?423次閱讀
    如何用Brower Use WebUI實(shí)現(xiàn)<b class='flag-5'>網(wǎng)頁(yè)數(shù)據(jù)</b>智能<b class='flag-5'>抓取</b>與分析?

    富唯智能最小復(fù)合機(jī)器人的強(qiáng)大抓取實(shí)力?

    在工業(yè)自動(dòng)化領(lǐng)域,復(fù)合機(jī)器人的身影愈發(fā)常見(jiàn)。但你是否好奇,最小的復(fù)合機(jī)器人抓取多少多重?富唯智能以創(chuàng)新技術(shù),給出了令人驚嘆的答案,徹底顛覆我們對(duì)小身形機(jī)器人的認(rèn)知。?
    的頭像 發(fā)表于 04-16 16:31 ?285次閱讀
    富唯智能最小復(fù)合<b class='flag-5'>機(jī)器人</b>的強(qiáng)大<b class='flag-5'>抓取</b>實(shí)力?

    復(fù)合機(jī)器人抓取精度的影響因素及提升策略

    復(fù)合機(jī)器人結(jié)合了移動(dòng)機(jī)器人(如AGV)和機(jī)械臂的功能,廣泛應(yīng)用于物流、制造領(lǐng)域。抓取精度是其核心性能指標(biāo)之一,直接影響作業(yè)效率和產(chǎn)品質(zhì)量。本文將探討復(fù)合
    的頭像 發(fā)表于 04-12 11:15 ?335次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    ,一次生成深度信息。 自主機(jī)器人定位任務(wù)的本質(zhì)是對(duì)機(jī)器人自身狀態(tài)的估計(jì)問(wèn)題,包括位置,朝向,速度問(wèn)題。 路徑規(guī)劃旨在找到從起點(diǎn)到目標(biāo)區(qū)域的路徑,確保路徑的可行性和最優(yōu)性。路徑規(guī)劃方法包括變分方法,圖搜
    發(fā)表于 01-04 19:22

    《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)

    取特征點(diǎn),涉及大量像素級(jí)比較運(yùn)算;優(yōu)化機(jī)器人位姿,需要迭代求解大規(guī)模矩陣方程。書(shū)中提出了模塊化的硬件加速方案,闡述了如何以因子圖為通用模版,以求解非線性優(yōu)化問(wèn)題為橋梁,面向多種機(jī)器人應(yīng)用進(jìn)行加速。 第11
    發(fā)表于 01-04 01:15

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    需要專業(yè)程序員進(jìn)行繁瑣的編程工作,這種方式不僅效率低下,還限制了機(jī)器人的應(yīng)用場(chǎng)景。例如,在我們大學(xué)工程實(shí)訓(xùn)課程中使用的數(shù)控機(jī)床,需要人為設(shè)定起點(diǎn)、終點(diǎn)、移動(dòng)方向和移動(dòng)距離參數(shù),自動(dòng)化
    發(fā)表于 12-29 23:04

    巡檢機(jī)器人AI智慧算法有哪些?

    要把機(jī)器人比做人類,那么AI智慧算法就好比是它的感官和聰慧的大腦。通過(guò)捕捉每一個(gè)細(xì)微的變化、迅速對(duì)收集到的信息進(jìn)行分析處理,做出正確的判斷和決策。就像一個(gè)經(jīng)驗(yàn)豐富的專業(yè)人員,有條不紊地
    的頭像 發(fā)表于 12-29 10:51 ?550次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書(shū)概覽與第一章學(xué)習(xí)

    ,特別是在模型訓(xùn)練的時(shí)候,高質(zhì)量、大規(guī)模且多樣化的模型才能夠訓(xùn)練出來(lái)一個(gè)好的網(wǎng)絡(luò)。針對(duì)具身智能機(jī)器人也是如此,如自主導(dǎo)航機(jī)器人需要大量地環(huán)境數(shù)據(jù)來(lái)進(jìn)
    發(fā)表于 12-27 14:50

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值

    的第二個(gè)挑戰(zhàn)是 “數(shù)據(jù)孤島”。獲取如此全面的數(shù)據(jù)充滿了挑戰(zhàn),包括高成本、耗時(shí)要求和潛在的安全風(fēng)險(xiǎn)。大多數(shù) EAI 機(jī)器人組織僅限于在特定的受控環(huán)境中收集數(shù)據(jù)。實(shí)體之間缺乏
    發(fā)表于 12-24 00:33

    《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊

    需要在實(shí)時(shí)性、精度和可靠性維度上進(jìn)行優(yōu)化。我認(rèn)為這種系統(tǒng)化的工程思維對(duì)構(gòu)建復(fù)雜人工智能系統(tǒng)很有啟發(fā)。作為一名數(shù)據(jù)挖掘工作者,這本書(shū)我看到
    發(fā)表于 12-19 22:26