Meta發(fā)布了第一個(gè)非參數(shù)掩蔽語言模型NPM:那一年,我把手放在口袋里,不知道什么是詞匯之外。

雖然大規(guī)模語言模型在NLP領(lǐng)域的強(qiáng)大表現(xiàn)令人驚嘆,但也帶來了嚴(yán)重的負(fù)成本,比如訓(xùn)練太貴,更新困難而且很難處理長(zhǎng)尾知識(shí)
而且語言模型在預(yù)測(cè)層通常采用一個(gè)詞匯量有限的softmax層,基本不會(huì)輸出生僻字或短語,大大限制了模型的表達(dá)能力。
為了解決模型的長(zhǎng)尾問題,最近來自華盛頓大學(xué),Meta AI和艾倫人工智能研究所的學(xué)者聯(lián)合提出了首個(gè)非參數(shù)掩蔽語言模型,通過參考語料庫(kù)中每個(gè)短語的非參數(shù)分布來替代softmax輸出。
通過比較目標(biāo)和在批量中搜索完整的語料庫(kù),可以有效地訓(xùn)練NPM。
研究人員對(duì)9個(gè)封閉任務(wù)和7個(gè)開放任務(wù)進(jìn)行了零射評(píng)估,其中包括強(qiáng)調(diào)需要預(yù)測(cè)新事實(shí)或罕見短語的時(shí)空轉(zhuǎn)換和單詞級(jí)翻譯的任務(wù)。
發(fā)現(xiàn)NPM明顯優(yōu)于更大的參數(shù)模型,如參數(shù)量高500倍的GPT—3和參數(shù)量高37倍的OPT 13B,NPM尤其擅長(zhǎng)處理稀有模式和預(yù)測(cè)稀有或幾乎未知的詞。
第一個(gè)非參數(shù)語言模型
雖然結(jié)合一些現(xiàn)有的檢索和生成相關(guān)工作可以緩解這個(gè)問題,但是這些模型的最終預(yù)測(cè)部分仍然需要一個(gè)softmax層來預(yù)測(cè)token,并沒有從根本上解決長(zhǎng)尾問題。
NPM由編碼器和參考語料庫(kù)組成編碼器將文本映射到一個(gè)固定大小的向量中,然后NPM從中檢索一個(gè)短語并填充它
可以看出,NPM選擇了在短語上獲得的非參數(shù)分布,而不是使用固定輸出詞匯softmax作為其輸出。
但是訓(xùn)練非參數(shù)模型也會(huì)帶來兩個(gè)關(guān)鍵問題:
1.在訓(xùn)練過程中搜索完整的語料庫(kù)是非常費(fèi)時(shí)費(fèi)力的。研究人員通過使用完整語料庫(kù)搜索的批內(nèi)近似來解決它,
2.沒有解碼器,很難學(xué)會(huì)預(yù)測(cè)任意長(zhǎng)度的短語研究者通過擴(kuò)展跨度掩蔽和短語水平的比較目標(biāo)來解決這個(gè)問題
總之,NPM完全刪除了輸出詞匯的softmax,通過預(yù)測(cè)任意數(shù)量的N—gram,實(shí)現(xiàn)了有效的無界輸出空間。
由此產(chǎn)生的模型可以預(yù)測(cè)極其罕見甚至完全未知的單詞,并且可以有效地支持無限的詞匯量,這是現(xiàn)有模型所做不到的。
NPM方法
NPM的核心思想是通過使用編碼器將語料庫(kù)中的所有短語映射到密集的向量空間在推理中,當(dāng)給定一個(gè)帶有的查詢時(shí),編碼器用于從語料庫(kù)中找到最近的短語并填充它
純編碼器模型是一個(gè)非常有競(jìng)爭(zhēng)力的表示模型,但現(xiàn)有的純編碼器模型不能預(yù)測(cè)未知的令牌數(shù),這限制了它們?cè)跊]有微調(diào)的情況下的使用。
NPM通過檢索一個(gè)短語來填充任意數(shù)量的令牌來解決這個(gè)問題。
理由
編碼器將參考語料庫(kù)C中的每個(gè)不同短語映射到密集向量空間。
在測(cè)試期間,編碼器將屏蔽的查詢映射到相同的向量空間,并從C中檢索短語來填充它。
這里,C不必與訓(xùn)練語料庫(kù)相同,并且可以在測(cè)試期間替換或擴(kuò)展,而無需重新訓(xùn)練編碼器。
在實(shí)踐中,語料庫(kù)中有大量的短語,對(duì)所有的短語進(jìn)行索引是非常昂貴的。
例如,如果我們考慮一個(gè)最多有L個(gè)標(biāo)記的短語,我們需要索引l×
化簡(jiǎn)為|C|,然后在測(cè)試中,分別在開頭和結(jié)尾用K—近鄰搜索逼近所有短語的非參數(shù)分布。
例如,由四個(gè)BPE令牌組成的短語Thessaloniki由c1和c4的連接來表示,分別對(duì)應(yīng)于該短語的開頭和結(jié)尾。
然后用同一個(gè)向量空間中的兩個(gè)向量q_start和q_end來表示一個(gè)查詢,再用每個(gè)向量來檢索似是而非的短語的開頭和結(jié)尾,然后進(jìn)行聚合。
這樣做的前提是開頭和結(jié)尾有很好的表現(xiàn),即Q起點(diǎn)足夠接近c(diǎn)1,Q終點(diǎn)足夠接近c(diǎn)4,這一點(diǎn)在訓(xùn)練過程中已經(jīng)得到保證。
火車
NPM在未標(biāo)記的文本數(shù)據(jù)上被訓(xùn)練,以確保編碼器將文本映射到良好的密集向量空間。
在訓(xùn)練NPM時(shí)存在兩個(gè)主要問題:1)完整的語料庫(kù)搜索將使訓(xùn)練非常耗時(shí),2)用任意長(zhǎng)度的短語代替標(biāo)記進(jìn)行掩碼。
1.掩模掩蔽
段掩碼是對(duì)長(zhǎng)度從幾何分布中采樣的連續(xù)令牌進(jìn)行掩碼。
研究人員對(duì)此進(jìn)行了擴(kuò)展:
1)如果一些片段同時(shí)出現(xiàn)在該批中的其他序列中,屏蔽它們以確保在訓(xùn)練期間該批中的批內(nèi)陽性。
例如,封鎖部分2010年,西雅圖海鷹隊(duì)和所有出現(xiàn)在另一個(gè)序列。
但是對(duì)于bigram游戲來說,它是不能一起面具的雖然它們都出現(xiàn)在兩個(gè)序列中,但它們不會(huì)同時(shí)出現(xiàn)
2)不是用(掩碼)替換一個(gè)段中的每個(gè)記號(hào),而是用兩個(gè)特殊記號(hào)(掩碼)(掩碼)替換整個(gè)段。
比如上面的例子,不管要屏蔽的線段有多長(zhǎng),都用(mask)代替,這樣就可以得到每一段的起始和結(jié)束向量,更便于推理。
2.訓(xùn)練目的
假設(shè)面具片段是西雅圖海鷹,模型應(yīng)該在測(cè)試期間從參考語料庫(kù)的其他序列中檢索短語西雅圖海鷹。
在推理階段,該模型從sum (MASKe)中獲得向量,并使用它們從語料庫(kù)中檢索短語的開頭和結(jié)尾。
因此,訓(xùn)練目標(biāo)應(yīng)該鼓勵(lì)向量更接近西雅圖海鷹隊(duì)中的the ,而遠(yuǎn)離其他token,而不應(yīng)該是任何短語中的the ,例如be the first。
這可以通過訓(xùn)練模型來完成,訓(xùn)練是通過將完整的語料庫(kù)批量地近似到其他序列具體來說,訓(xùn)練模型從同一批的其他序列中檢索西雅圖海鷹隊(duì)的起點(diǎn)和終點(diǎn)
值得注意的是,這種屏蔽策略可確保每個(gè)屏蔽跨度在一個(gè)批次中有一個(gè)公共段。
實(shí)驗(yàn)部分
從結(jié)果來看,NPM在零鏡頭設(shè)置下的性能優(yōu)于其他基線模型。
在參數(shù)模型中,RoBERTa的性能最好,出人意料地超過了包括GPT—3等在內(nèi)的模型,可能是因?yàn)榧兙幋a器模型的雙向性質(zhì)起著至關(guān)重要的作用,這也表明因果語言模型可能不是一個(gè)合適的分類選擇
KNN—LM方法在參數(shù)模型中加入了非參數(shù)成分,其性能優(yōu)于其他所有基線可是,在GPT—2中單獨(dú)檢索的性能較差,這表明僅在推理中使用kNN是有限的
NPM單和NPM的表現(xiàn)明顯優(yōu)于所有基線,在所有數(shù)據(jù)集上都取得了一致的優(yōu)越表現(xiàn)這表明,即使對(duì)于不明確需要外部知識(shí)的任務(wù),非參數(shù)模型也是非常有競(jìng)爭(zhēng)力的
定性分析使用羅伯塔和NPM在情感分析任務(wù)中的預(yù)測(cè)結(jié)果在第一個(gè)例子中,便宜意味著不貴,在第二個(gè)例子中,便宜意味著質(zhì)量差
羅伯塔對(duì)這兩個(gè)例子的預(yù)測(cè)是肯定的,而NPM通過搜索廉價(jià)在與輸入相同的上下文中使用的上下文,做出了正確的預(yù)測(cè)。
還可以發(fā)現(xiàn),NPM輸出的表征可以帶來更好的詞義消歧例如,RoBERTa在廉價(jià)和便宜(質(zhì)量差)之間分配了很高的相似性分?jǐn)?shù)
另一方面,NPM成功地在廉價(jià)和廉價(jià)之間分配了一個(gè)低的相似性分?jǐn)?shù),這也表明非參數(shù)訓(xùn)練和對(duì)比目標(biāo)是有效的,可以更好地改善表征學(xué)習(xí),而未經(jīng)訓(xùn)練的算法如kNN推理根本做不到。
參考資料:
。聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
相關(guān)新聞
- 中國(guó)信通院:Q3我國(guó)上市手機(jī)中RAM為2GB及以
- 銘普創(chuàng)新首屆戶外生態(tài)大會(huì)完美收官,戰(zhàn)略組合拳助力
- 銀行間首單房企信用風(fēng)險(xiǎn)緩釋憑證落地新城控股完成發(fā)
- 打造“中國(guó)南方小商品之都”廣西貴港義烏中國(guó)小商品
- 美的首款家庭服務(wù)機(jī)器人小惟上線,售價(jià)32999元
- 中國(guó)國(guó)航正籌劃取得山航股份控制權(quán)
- 安然納米發(fā)光體 — 感恩安然還我一個(gè)溫暖和樂的家
- 全球首架C919國(guó)產(chǎn)大飛機(jī)抵達(dá)成都100小時(shí)驗(yàn)證
- 以數(shù)字技術(shù)賦能公務(wù)機(jī)運(yùn)營(yíng),華龍航空再獲國(guó)際科創(chuàng)節(jié)
- 第14期“中國(guó)金融中心指數(shù)”發(fā)布:后疫情時(shí)代中國(guó)


- 中國(guó)物流與采購(gòu)聯(lián)合會(huì):短期疫情沖擊明顯物流運(yùn)行
- 床異味近一年未散、床墊多次坍塌,慕思“讓人們睡
- 達(dá)行要聞達(dá)州銀行多措并舉強(qiáng)化適老化服務(wù)
- 首發(fā)價(jià)2499元起,榮耀平板V8Pro正式發(fā)布
- 和訊SGI公司|賽若金訂單明顯增加,新冠口服藥
- 博新生物深耕腎病(尿毒癥)治療血液灌流器細(xì)分市
- 消息稱B站副總裁王昊離職,加入智聯(lián)招聘任CTO
- 廣汽集團(tuán)多款新車將亮相2022廣州車展,包括埃
- 北京銀保監(jiān)局:核準(zhǔn)喬良中銀三星人壽省級(jí)分公司總
- 11地明年首季擬發(fā)行地方債7749.45億元近

- 血氧儀需求激增上市公司擴(kuò)充產(chǎn)能保供應(yīng)
- 理想汽車用戶通知顯示:網(wǎng)易云音樂將推出全新車載
- Netflix《獵魔人》前傳劇集《獵魔人:血源
- 五洲新春:擬提前贖回“新春轉(zhuǎn)債”
- 記者走訪上海超市便利店:基本正常開業(yè)物價(jià)趨于平
- 境外市場(chǎng)迎創(chuàng)投機(jī)構(gòu)上市大年
- 深圳廣田集團(tuán)股份有限公司關(guān)于部分銀行債務(wù)逾期的
- 全國(guó)首單生物醫(yī)藥產(chǎn)業(yè)園REITs華夏和達(dá)高科R
- “集中供地”將成歷史?2023年土拍政策或迎新
- 首發(fā)價(jià)2499元起,榮耀平板V8Pro正式發(fā)布