99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家Maarten Grootendorst向我們介紹了9種距離度量方法

新機器視覺 ? 來源:人工智能愛好者社區(qū) ? 作者:人工智能愛好者社 ? 2021-03-29 11:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數(shù)據(jù)挖掘中,我們經(jīng)常需要計算樣本之間的相似度,通常的做法是計算樣本之間的距離。在本文中,數(shù)據(jù)科學(xué)家 Maarten Grootendorst 向我們介紹了 9 種距離度量方法,其中包括歐氏距離、余弦相似度等,并探討如何以及何時以最佳的方式使用它們。此外 Maarten Grootendorst 還對它們的缺點進行了介紹,以及如何規(guī)避不足。歐氏距離(Euclidean Distance)

6f6bc4e6-8e94-11eb-8b86-12bb97331649.png

歐式距離。 我們從最常見的歐式距離開始,歐式距離可解釋為連接兩個點的線段的長度。歐式距離公式非常簡單,使用勾股定理從這些點的笛卡爾坐標(biāo)計算距離。

6f86ca52-8e94-11eb-8b86-12bb97331649.png

缺點:盡管這是一種常用的距離度量,但歐式距離并不是尺度不變的,這意味著所計算的距離可能會根據(jù)特征的單位發(fā)生傾斜。通常,在使用歐式距離度量之前,需要對數(shù)據(jù)進行歸一化處理。 此外,隨著數(shù)據(jù)維數(shù)的增加,歐氏距離的作用也就越小。這與維數(shù)災(zāi)難(curse of dimensionality)有關(guān)。 用例:當(dāng)你擁有低維數(shù)據(jù)且向量的大小非常重要時,歐式距離的效果非常好。如果在低維數(shù)據(jù)上使用歐式距離,則如 k-NN 和 HDBSCAN 之類的方法可達到開箱即用的效果。 余弦相似度(Cosine Similarity)

6fce2820-8e94-11eb-8b86-12bb97331649.png

余弦相似度。 余弦相似度經(jīng)常被用作抵消高維歐式距離問題。余弦相似度是指兩個向量夾角的余弦。如果將向量歸一化為長度均為 1 的向量,則向量的點積也相同。 兩個方向完全相同的向量的余弦相似度為 1,而兩個彼此相對的向量的余弦相似度為 - 1。注意,它們的大小并不重要,因為這是在方向上的度量。

703e5b0e-8e94-11eb-8b86-12bb97331649.png

缺點:余弦相似度的一個主要缺點是沒有考慮向量的大小,而只考慮它們的方向。以推薦系統(tǒng)為例,余弦相似度就沒有考慮到不同用戶之間評分尺度的差異。 用例:當(dāng)我們對高維數(shù)據(jù)向量的大小不關(guān)注時,可以使用余弦相似度。對于文本分析,當(dāng)數(shù)據(jù)以單詞計數(shù)表示時,經(jīng)常使用此度量。例如,當(dāng)一個單詞在一個文檔中比另一個單詞更頻繁出現(xiàn)時,這并不一定意味著文檔與該單詞更相關(guān)。可能是文件長度不均勻或者計數(shù)的重要性不太重要。我們最好使用忽略幅度的余弦相似度。 漢明距離(Hamming Distance)

708c32e8-8e94-11eb-8b86-12bb97331649.png

漢明距離。 漢明距離是兩個向量之間不同值的個數(shù)。它通常用于比較兩個相同長度的二進制字符串。它還可以用于字符串,通過計算不同字符的數(shù)量來比較它們之間的相似程度。 缺點:當(dāng)兩個向量長度不相等時,漢明距離使用起來很麻煩。當(dāng)幅度是重要指標(biāo)時,建議不要使用此距離指標(biāo)。 用例:典型的用例包括數(shù)據(jù)通過計算機網(wǎng)絡(luò)傳輸時的錯誤糾正 / 檢測。它可以用來確定二進制字中失真的數(shù)目,作為估計誤差的一種方法。此外,你還可以使用漢明距離來度量分類變量之間的距離。 曼哈頓距離(Manhattan Distance)

70e00c60-8e94-11eb-8b86-12bb97331649.png

曼哈頓距離。 曼哈頓距離通常稱為出租車距離或城市街區(qū)距離,用來計算實值向量之間的距離。想象一下均勻網(wǎng)格棋盤上的物體,如果它們只能移動直角,曼哈頓距離是指兩個向量之間的距離,在計算距離時不涉及對角線移動。

712adcc2-8e94-11eb-8b86-12bb97331649.png

缺點:盡管曼哈頓距離在高維數(shù)據(jù)中似乎可以工作,但它比歐式距離直觀性差,尤其是在高維數(shù)據(jù)中使用時。此外,由于它可能不是最短路徑,有可能比歐氏距離給出一個更高的距離值。 用例:當(dāng)數(shù)據(jù)集具有離散或二進制屬性時,曼哈頓距離似乎工作得很好,因為它考慮了在這些屬性的值中實際可以采用的路徑。以歐式距離為例,它會在兩個向量之間形成一條直線,但實際上這是不可能的。 切比雪夫距離(Chebyshev Distance)

715ac446-8e94-11eb-8b86-12bb97331649.png

切比雪夫距離。 切比雪夫距離定義為兩個向量在任意坐標(biāo)維度上的最大差值。換句話說,它就是沿著一個軸的最大距離。切比雪夫距離通常被稱為棋盤距離,因為國際象棋的國王從一個方格到另一個方格的最小步數(shù)等于切比雪夫距離。

71c6ed56-8e94-11eb-8b86-12bb97331649.png

缺點:切比雪夫距離通常用于特定的用例,這使得它很難像歐氏距離或余弦相似度那樣作為通用的距離度量。因此,在確定適合用例時才使用它。 用例:切比雪夫距離用于提取從一個方塊移動到另一個方塊所需的最小移動次數(shù)。此外,在允許無限制八向移動的游戲中,這可能是有用的方法。在實踐中,切比雪夫距離經(jīng)常用于倉庫物流,因為它非常類似于起重機移動一個物體的時間。 閔氏距離(Minkowski)

71d2029a-8e94-11eb-8b86-12bb97331649.png

閔氏距離。 閔氏距離比大多數(shù)距離度量更復(fù)雜。它是在范數(shù)向量空間(n 維實數(shù)空間)中使用的度量,這意味著它可以在一個空間中使用,在這個空間中,距離可以用一個有長度的向量來表示。 閔氏距離公式如下:

7253d90a-8e94-11eb-8b86-12bb97331649.png

最有趣的一點是,我們可以使用參數(shù) p 來操縱距離度量,使其與其他度量非常相似。常見的 p 值有:

p=1:曼哈頓距離

p=2:歐氏距離

p=∞:切比雪夫距離

缺點:閔氏距離與它們所代表的距離度量有相同的缺點,因此,對哈頓距離、歐幾里得距離和切比雪夫距離等度量標(biāo)準(zhǔn)有個好的理解非常重要。此外,參數(shù) p 的使用可能很麻煩,因為根據(jù)用例,查找正確的 p 值在計算上效率低。 用例:p 的積極一面是可迭代,并找到最適合用例的距離度量。它允許在距離度量上有很大的靈活性,如果你非常熟悉 p 和許多距離度量,將會獲益多多。 雅卡爾指數(shù)(Jaccard Index)

728742b8-8e94-11eb-8b86-12bb97331649.png

雅卡爾指數(shù)。 雅卡爾指數(shù)(交并比)是用于比較樣本集相似性與多樣性的統(tǒng)計量。雅卡爾系數(shù)能夠量度有限樣本集合的相似度,其定義為兩個集合交集大小與并集大小之間的比例。 例如,如果兩個集合有 1 個共同的實體,而有 5 個不同的實體,那么雅卡爾指數(shù)為 1/5 = 0.2。要計算雅卡爾距離,我們只需從 1 中減去雅卡爾指數(shù):

72bd3724-8e94-11eb-8b86-12bb97331649.png

缺點:雅卡爾指數(shù)的一個主要缺點是它受數(shù)據(jù)大小的影響很大。大數(shù)據(jù)集對指數(shù)有很大影響,因為它可以顯著增加并集,同時保持交集相似。 用例:雅卡爾指數(shù)通常用于使用二進制或二進制數(shù)據(jù)的應(yīng)用程序中。當(dāng)你有一個深度學(xué)習(xí)模型來預(yù)測圖像分割時,比如一輛汽車,雅卡爾指數(shù)可以用來計算給定真實標(biāo)簽的預(yù)測分割的準(zhǔn)確度。 類似地,它可以用于文本相似性分析,以測量文檔之間有多少詞語重疊。因此,它可以用來比較模式集合。 半正矢(Haversine)

7318aa82-8e94-11eb-8b86-12bb97331649.png

半正矢距離。 半正矢距離是指球面上的兩點在給定經(jīng)緯度條件下的距離。它與歐幾里得距離非常相似,因為它可以計算兩點之間的最短連線。主要區(qū)別在于半正矢距離不可能有直線,因為這里的假設(shè)是兩個點都在一個球面上。

736087f8-8e94-11eb-8b86-12bb97331649.png

缺點:這種距離測量的一個缺點是,假定這些點位于一個球體上。實際上,這種情況很少出現(xiàn),例如,地球不是完美的圓形,在某些情況下可能使計算變得困難。相反,如果假定是橢球,使用 Vincenty 距離比較好。 用例:半正矢距離通常用于導(dǎo)航。例如,你可以使用它來計算兩個國家之間的飛行距離。請注意,如果距離本身不那么大,則不太適合。 S?rensen-Dice 系數(shù)

73cd45a0-8e94-11eb-8b86-12bb97331649.png

S?rensen-Dice 系數(shù)。 S?rensen-Dice 系數(shù)與雅卡爾指數(shù)非常相似,都是度量樣本集的相似性和多樣性。盡管它們的計算方法相似,但是 S?rensen-Dice 系數(shù)更直觀一些,因為它可以被視為兩個集合之間重疊的百分比,這個值在 0 到 1 之間:

741769e6-8e94-11eb-8b86-12bb97331649.png

缺點:正如雅卡爾指數(shù),S?rensen-Dice 系數(shù)也夸大了很少或沒有真值的集合的重要性,因此,它可以控制多集合的平均得分,還可以控制多組平均得分并按相關(guān)集合的大小成反比地加權(quán)每個項目,而不是平等對待它們。 用例:用例與雅卡爾指數(shù)相似,它通常用于圖像分割任務(wù)或文本相似性分析。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91886
  • 系數(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    8338
  • 度量
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    2756

原文標(biāo)題:一文讀懂常見的9種距離度量方法

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    地物光譜儀如何幫助科學(xué)家研究植被和土壤?

    在遙感、生態(tài)、農(nóng)業(yè)等研究領(lǐng)域,科學(xué)家們常常會提到一個工具: 地物光譜儀 。它看起來像一臺“測光的槍”,卻能揭示土壤和植被的“隱藏信息”。那么,地物光譜儀到底是怎么工作的?它又是如何在科學(xué)研究中
    的頭像 發(fā)表于 05-20 15:46 ?165次閱讀
    地物光譜儀如何幫助<b class='flag-5'>科學(xué)家</b>研究植被和土壤?

    云天勵飛董事長陳寧當(dāng)選深圳市青年科學(xué)家協(xié)會第十屆會長

    ? 2025年3月29日,深圳市青年科學(xué)家協(xié)會十屆一次會員大會在深圳市青少年活動中心南廳隆重舉行。百余位青年才俊齊聚一堂,共同見證協(xié)會換屆選舉,共話科技創(chuàng)新未來。共青團深圳市委員會書記胡火明出席
    的頭像 發(fā)表于 03-31 19:15 ?832次閱讀
    云天勵飛董事長陳寧當(dāng)選深圳市青年<b class='flag-5'>科學(xué)家</b>協(xié)會第十屆會長

    我國科學(xué)家制備出可控手性石墨烯卷

    日前,我國科學(xué)家開發(fā)了一名為“石蠟輔助浸入法”的新技術(shù),成功讓二維材料“卷起來”,制備出具有可控手性的石墨烯卷,為未來量子計算和自旋電子器件的發(fā)展奠定堅實基礎(chǔ)。 由天津大學(xué)教授胡文平、雷圣賓、李
    的頭像 發(fā)表于 02-26 11:17 ?486次閱讀

    NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)

    隨著 AI 正幫助各行各業(yè)推動創(chuàng)新和提高效率,基于海量的高質(zhì)量數(shù)據(jù)來訓(xùn)練各種模型是充分發(fā)揮 AI 應(yīng)用潛力的必經(jīng)之路,正因如此,數(shù)據(jù)科學(xué)家們面臨著日益增長的工作負載需求,迫切需求尋找高效趁手的工具以應(yīng)對挑戰(zhàn)。
    的頭像 發(fā)表于 01-24 09:26 ?618次閱讀

    深開鴻亮相“小小科學(xué)家”品牌發(fā)布暨科學(xué)探索研學(xué)營開營活動

    為在青少年中營造學(xué)科學(xué)、愛科學(xué)、用科學(xué)的濃厚氛圍,1月14日,由市委組織部、市委教育工委、團市委共同主辦的“小小科學(xué)家”品牌發(fā)布暨科學(xué)探索研
    的頭像 發(fā)表于 01-15 21:17 ?576次閱讀
    深開鴻亮相“小小<b class='flag-5'>科學(xué)家</b>”品牌發(fā)布暨<b class='flag-5'>科學(xué)</b>探索研學(xué)營開營活動

    AI 推動未來科學(xué) 晶泰科技共襄未來科學(xué)大獎周

    科學(xué)家,探討學(xué)科交叉與學(xué)術(shù)創(chuàng)新,傾力打造兼具權(quán)威性、專業(yè)性和國際影響力的科學(xué)盛會。 未來科學(xué)大獎由未來論壇于 2016 年創(chuàng)設(shè),被譽為"中國諾貝爾獎"。未來論壇是當(dāng)前中國極具聲望的民間科學(xué)
    的頭像 發(fā)表于 12-18 09:58 ?422次閱讀
    AI 推動未來<b class='flag-5'>科學(xué)</b> 晶泰科技共襄未來<b class='flag-5'>科學(xué)</b>大獎周

    西湖大學(xué):科學(xué)家+AI,科研新范式的樣本

    研究,創(chuàng)新科研新范式。這一點在西湖大學(xué)的科研項目中已得到體現(xiàn)。 成立于2018年的西湖大學(xué)是由施一公院士領(lǐng)銜創(chuàng)辦的、聚焦前沿科學(xué)研究的研究型大學(xué),該校鼓勵科學(xué)家們探索AI與各學(xué)科交叉融合,為科研創(chuàng)新提速。為此,西湖大學(xué)在浪潮信息等企業(yè)助力下打造
    的頭像 發(fā)表于 12-12 15:59 ?587次閱讀
    西湖大學(xué):<b class='flag-5'>科學(xué)家</b>+AI,科研新范式的樣本

    華為自動駕駛科學(xué)家陳亦倫投身具身智能創(chuàng)業(yè)

    近日,華為車BU自動駕駛領(lǐng)域的昔日明星科學(xué)家陳亦倫,如今已開啟一段全新的創(chuàng)業(yè)旅程。據(jù)可靠消息,陳亦倫在今年7月正式創(chuàng)立了名為“它石智航”的新公司,專注于具身智能領(lǐng)域的研發(fā)與創(chuàng)新。 與陳亦倫攜手共進
    的頭像 發(fā)表于 11-28 10:25 ?571次閱讀

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    了傳統(tǒng)學(xué)科界限,使得科學(xué)家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術(shù)的引入也催生了一全新的科學(xué)研究范式,即數(shù)據(jù)驅(qū)動的研究范式,這種范式強調(diào)從大量
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    和數(shù)量直接影響到模型的準(zhǔn)確性和可靠性。因此,數(shù)據(jù)獲取、處理、分析和質(zhì)量控制在AI for Science中至關(guān)重要。此外,數(shù)據(jù)驅(qū)動的研究范式也促使科學(xué)家從傳統(tǒng)的假設(shè)驅(qū)動轉(zhuǎn)向更加靈活和開放的研究
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    如何激發(fā)科學(xué)家的創(chuàng)新思維。AI不僅僅是工具,更是一思維方式,它鼓勵我們跳出傳統(tǒng)框架,以數(shù)據(jù)為驅(qū)動,探索未知。這種思維方式的轉(zhuǎn)變,不僅促進了科學(xué)方法
    發(fā)表于 10-14 09:12

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學(xué)家做了什么? 人工智能將如何改變我們所生
    發(fā)表于 09-09 13:54

    科學(xué)家開發(fā)出首臺可見光飛秒光纖激光器

    光纖激光器的實驗裝置圖 加拿大拉瓦爾大學(xué)科學(xué)家開發(fā)出了第一臺可在電磁光譜的可見光范圍內(nèi)產(chǎn)生飛秒脈沖的光纖激光器,這種能產(chǎn)生超短、明亮可見波長脈沖的激光器可廣泛應(yīng)用于生物醫(yī)學(xué)、材料加工等領(lǐng)域。通常產(chǎn)生
    的頭像 發(fā)表于 07-25 06:43 ?639次閱讀
    <b class='flag-5'>科學(xué)家</b>開發(fā)出首臺可見光飛秒光纖激光器

    受人眼啟發(fā)!科學(xué)家開發(fā)出新型改良相機

    新型事件相機系統(tǒng)與標(biāo)準(zhǔn)事件相機系統(tǒng)對比圖。 馬里蘭大學(xué)計算機科學(xué)家領(lǐng)導(dǎo)的一個研究小組發(fā)明了一照相機裝置,可以改善機器人觀察周圍世界并做出反應(yīng)的方式。受人眼工作原理的啟發(fā),他們的創(chuàng)新型照相機系統(tǒng)模仿
    的頭像 發(fā)表于 07-22 06:24 ?566次閱讀
    受人眼啟發(fā)!<b class='flag-5'>科學(xué)家</b>開發(fā)出新型改良相機

    中國科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體

    據(jù)新華社報道,我國科學(xué)家再立新功,又一新型高溫超導(dǎo)體被發(fā)現(xiàn)。 復(fù)旦大學(xué)物理學(xué)系趙俊團隊利用高壓光學(xué)浮區(qū)技術(shù)成功生長了三層鎳氧化物,成功證實在鎳氧化物中具有壓力誘導(dǎo)的體超導(dǎo)電性,而且超導(dǎo)體積分?jǐn)?shù)達到
    的頭像 發(fā)表于 07-19 15:14 ?1186次閱讀