暖暖中文免费日本社区,亚洲第一AV无码,国产区在线播放一区

大語(yǔ)言模型中的常用評(píng)估指標(biāo)

EM 是 exact match 的簡(jiǎn)稱，所以就很好理解，em 表示預(yù)測(cè)值和答案是否完全一樣。

defcalc_em_score(answers,prediction):
em=0
foransinanswers:
#刪掉標(biāo)點(diǎn)符號(hào)
ans_=remove_punctuation(ans)
prediction_=remove_punctuation(prediction)
ifans_==prediction_:
#只有在預(yù)測(cè)和答案完全一樣時(shí)em值為1，否則為0
em=1
break
returnem

分別計(jì)算準(zhǔn)確率和召回率， F1 是準(zhǔn)確率和召回率的調(diào)和平均數(shù)。

defcalc_f1_score(answers,prediction):
f1_scores=[]
foransinanswers:
#分詞后的答案，分詞方法參見附錄2
ans_segs=mixed_segmentation(ans,rm_punc=True)
#分詞后的預(yù)測(cè)
prediction_segs=mixed_segmentation(prediction,rm_punc=True)
#計(jì)算答案和預(yù)測(cè)之間的最長(zhǎng)公共子序列，參見附錄1
lcs,lcs_len=find_lcs(ans_segs,prediction_segs)
iflcs_len==0:
f1_scores.append(0)
continue
#準(zhǔn)確率和lcs_len/len(prediction_segs)成正比
precision=1.0*lcs_len/len(prediction_segs)
#召回率和lcs_len/len(ans_segs)成正比
recall=1.0*lcs_len/len(ans_segs)
#準(zhǔn)確率和召回率的調(diào)和平均數(shù)
f1=(2*precision*recall)/(precision+recall)
f1_scores.append(f1)
returnmax(f1_scores)

對(duì)于準(zhǔn)確率和召回率增加下了解。看一個(gè)例子，如下圖所示，方框代表全集，黃色圈代表正確結(jié)果集合，斜紋圈代表返回的預(yù)測(cè)結(jié)果。這樣就構(gòu)成了如下幾個(gè)部分：

在這里插入圖片描述

方框代表全集；

黃色圈代表正確結(jié)果集合；

斜紋圈代表返回的預(yù)測(cè)結(jié)果，也叫召回結(jié)果；

A 代表正確的、召回的部分，也叫 True Positive（TP）；

C代表錯(cuò)誤的、召回的部分，也叫 False Positive （FP）；

B代表錯(cuò)誤的、沒召回的部分，也叫 False Negative （FN）；

方框之內(nèi)、兩個(gè)圓圈之外的部分，代表正確的、沒召回的部分，叫 True Negative （FN）；

這時(shí)再來(lái)看 F1 的計(jì)算，就更直觀了：

在這里插入圖片描述

precision 代表著召回結(jié)果中的正確比例，評(píng)估的是召回的準(zhǔn)確性；recall 代表正確召回結(jié)果占完整結(jié)果的比例，考慮的是召回的完整性；F1 既考慮了正確性，又考慮了完整性。

Accuracy 和 Accuracy norm

有了上面對(duì) TP、FP、TN、FN 的定義，這里可以直接給出 Accuracy 的計(jì)算公式：

在這里插入圖片描述

可以看出 accuracy 代表正確的（正確的、召回的部分 + 正確的、沒召回的部分）比例。適合于離散的結(jié)果、分類任務(wù)，比如選擇題。

但是看 lm-evaluation-harness 中的 accuracy 又不完全遵循上面的定義：

defprocess_results(self,doc,results):
gold=doc["gold"]
#分?jǐn)?shù)最高的作為預(yù)測(cè)結(jié)果和目標(biāo)答案做對(duì)比
acc=1.0ifnp.argmax(results)==goldelse0.0
#考慮選項(xiàng)長(zhǎng)度
completion_len=np.array([float(len(i))foriindoc["choices"]])
acc_norm=1.0ifnp.argmax(results/completion_len)==goldelse0.0

return{
"acc":acc,
"acc_norm":acc_norm,
}

lm-evaluation-harness 在計(jì)算acc時(shí)，先用模型為每個(gè)選項(xiàng)計(jì)算出的分?jǐn)?shù)（例如，對(duì)數(shù)似然值）中，選出其中最大的作為預(yù)測(cè)結(jié)果。如果預(yù)測(cè)結(jié)果對(duì)應(yīng)的選項(xiàng)索引和真實(shí)的正確選項(xiàng)索引相同，那么 accuracy 就是 1，否則為0；

Accuracy norm（歸一化準(zhǔn)確率），這個(gè)指標(biāo)在計(jì)算過程中，會(huì)對(duì)模型計(jì)算出的每個(gè)選項(xiàng)的分?jǐn)?shù)進(jìn)行歸一化。歸一化的方法是將每個(gè)選項(xiàng)的分?jǐn)?shù)除以選項(xiàng)的長(zhǎng)度（字符數(shù)）。這樣就得到了一個(gè)考慮了選項(xiàng)長(zhǎng)度影響的新的分?jǐn)?shù)列表。根據(jù)這個(gè)新的分?jǐn)?shù)選取最大的分?jǐn)?shù)的選項(xiàng)作為答案。

Perplexity 困惑度

困惑度（perplexity）的基本思想是：模型對(duì)于一個(gè)測(cè)試集中的句子，計(jì)算這個(gè)句子中詞組合出現(xiàn)的概率，概率越高，困惑度越低，模型性能就證明是越好。

1、一個(gè)句子的概率，有如下定義，x 代表一個(gè)字符，它們組合在一起構(gòu)成一個(gè)句子，句子的概率就等于詞的概率相乘：

在這里插入圖片描述

unigram 對(duì)應(yīng)只考慮一個(gè)詞出現(xiàn)概率的算法，相當(dāng)于詞出現(xiàn)概率相互獨(dú)立；

bigram 對(duì)應(yīng)條件概率考慮連續(xù)的兩個(gè)詞的概率；

而 trigram 對(duì)應(yīng)條件概率考慮連續(xù)的三個(gè)詞的概率。

2、困惑度的計(jì)算：

在這里插入圖片描述

#輸入一個(gè)句子sentence
#輸入模型算出的uni_gram_dict【unigram，單詞的概率表】和bi_gram_dict【bigram，兩個(gè)詞的概率表】
#返回困惑度
defperplexity(sentence,uni_gram_dict,bi_gram_dict):
#分詞
sentence_cut=list(jieba.cut(sentence))
#句子長(zhǎng)度
sentence_len=len(sentence_cut)
#詞匯量
V=len(uni_gram_dict
p=1#概率初始值
k=0.5# ngram 的平滑值，平滑方法：Add-k Smoothing （k<1）
????for?i?in?range(sentence_len-1):
????????two_word?=?"".join(sentence_cut[i:i+2])
????????#?(bi_gram_dict.get(two_word,0)+k)/(uni_gram_dict.get(sentence_cut[i],0)?即兩個(gè)詞的條件概率
????????p?*=(bi_gram_dict.get(two_word,0)+k)/(uni_gram_dict.get(sentence_cut[i],0)+k*V)
????#?p?是?sentence?的概率
????#?返回困惑度
????return?pow(1/p,?1/sentence_len)

所以對(duì)一個(gè)句子的困惑度就是該模型得出的句子出現(xiàn)的概率的倒數(shù)，再考慮句子長(zhǎng)度對(duì)該倒數(shù)做一個(gè)幾何平均數(shù)。

對(duì)于一個(gè)正確的句子，如果模型得出的困惑度越低，代表模型性能越好。

進(jìn)一步參考資料

概述NLP中的指標(biāo)

附錄

附錄1、最長(zhǎng)公共子序列

#最長(zhǎng)公共子序列
deffind_lcs(s1,s2):
#申請(qǐng)一個(gè)二維矩陣，維度為len(s1)+1和len(s2)+1
#m[i+1][j+1]表示s2[i]和s2[i]位置對(duì)齊時(shí)，前面的以對(duì)齊位置為終點(diǎn)的最長(zhǎng)公共子序列長(zhǎng)度
m=[[0foriinrange(len(s2)+1)]forjinrange(len(s1)+1)]
mmax=0
p=0
foriinrange(len(s1)):
forjinrange(len(s2)):
#動(dòng)態(tài)規(guī)劃算法：以 s2[i]和 s2[j]位置對(duì)齊時(shí)，
#如果s1[i]不等于s2[j]，以對(duì)齊位置為終點(diǎn)的最長(zhǎng)公共子序列長(zhǎng)度為0，
#如果s1[i]等于s2[j]，以對(duì)齊位置為終點(diǎn)的最長(zhǎng)公共子序列長(zhǎng)度為
#以s2[i-1]和s2[j-1]位置對(duì)齊和為終點(diǎn)的最長(zhǎng)公共子序列長(zhǎng)度加1
ifs1[i]==s2[j]:
m[i+1][j+1]=m[i][j]+1
ifm[i+1][j+1]>mmax:
mmax=m[i+1][j+1]
p=i+1
#返回最長(zhǎng)的公共子序列和其長(zhǎng)度
returns1[p-mmax:p],mmax

附錄2、分詞

#考慮英文和數(shù)字的分詞
#例子:tvb電視臺(tái)已于2006年買下播映權(quán)->
#['tvb','電','視','臺(tái)','已','于','2006','年','買','下','播','映','權(quán)']
defmixed_segmentation(in_str,rm_punc=False):
in_str=str(in_str).lower().strip()
segs_out=[]
#storeenglishandnumber,everyelementisachar
temp_str=""
sp_char=['-',':','_','*','^','/','\','~','`','+','=',
'，','。','：','？','！','“','”','；','’','《','》','……','·','、',
'「','」','（','）','－','～','『','』']
forcharinin_str:
ifrm_puncandcharinsp_char:
continue
ifre.search(r'[u4e00-u9fa5]',char)orcharinsp_char:
iftemp_str!="":
ss=nltk.word_tokenize(temp_str)
segs_out.extend(ss)
temp_str=""
segs_out.append(char)
else:
temp_str+=char

#handlinglastpart
iftemp_str!="":
ss=nltk.word_tokenize(temp_str)
segs_out.extend(ss)

returnsegs_out

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算

計(jì)算

+關(guān)注

關(guān)注
2

文章
453

瀏覽量
39350
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50434
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10795

原文標(biāo)題：大語(yǔ)言模型中的常用評(píng)估指標(biāo)

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

99精品伊人亚洲|最近国产中文炮友|九草在线视频支援|AV网站大全最新|美女黄片免费观看|国产精品资源视频|精彩无码视频一区|91大神在线后入|伊人终合在线播放|久草综合久久中文

搜索歷史

大語(yǔ)言模型中的常用評(píng)估指標(biāo)

評(píng)論