国产人成视频在线视频,亚洲av网一区二区三区 ,91久久久精品国产一区二区三区 ,人妻~夫の上司犯感との,欧美,日韩,亚洲一区二区

AI理解不了“他她它”咋辦?動(dòng)詞成為新突破口,機(jī)器人聽(tīng)到抹黃油就知道拿刀

時(shí)間:2022-12-03 15:58:10 來(lái)源:IT之家 閱讀量:18935

給AI下指令的時(shí)候,總覺(jué)得和人交流不一樣。

AI理解不了“他她它”咋辦?動(dòng)詞成為新突破口,機(jī)器人聽(tīng)到抹黃油就知道拿刀

是的,雖然AI可以理解一些特定的人類(lèi)指令,比如:

幫我從餐廳拿把椅子。

但如果改成只有代詞和動(dòng)詞的模糊指令,AI會(huì)很困惑:

幫我找個(gè)能墊腳的東西。

現(xiàn)在,終于有研究人員提出了一種新的處理方法:AI不能學(xué)習(xí)理解動(dòng)詞嗎。

動(dòng)詞本身和一些特定的名詞綁定在一起比如抹黃油這個(gè)動(dòng)作,肯定離不開(kāi)刀叉之類(lèi)的名詞

只需要將它們進(jìn)行匹配,無(wú)需刀叉等名詞指令,AI也能準(zhǔn)確找出目標(biāo)對(duì)象:

目前,該論文正式收錄于NeurIPS 2022,相關(guān)模型已經(jīng)開(kāi)源:

那么它是如何訓(xùn)練AI理解動(dòng)詞的呢。

蓋名詞,讓AI看圖找東西

本文提出了一個(gè)稱(chēng)為T(mén)OIST的框架。

TOIST面向任務(wù)的實(shí)例分割轉(zhuǎn)換器,這是一種基于轉(zhuǎn)換器的實(shí)例分割新方案。

實(shí)例分割不同于語(yǔ)義分割的全圖切割,它還具有目標(biāo)檢測(cè)的特點(diǎn)。比如下圖直接找出與名詞兩廂對(duì)應(yīng)的對(duì)象:

此前,案件分割模型通常分為兩步第一步是檢測(cè)可能的目標(biāo),第二步是對(duì)可能的目標(biāo)進(jìn)行排序并預(yù)測(cè)最可能的結(jié)果

但與這種方式不同的是,TOIST框架直接采用了一個(gè)整體的Transformer框架,其中解碼器中的自我關(guān)注機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。

TOIST框架分為三個(gè)部分。

其中,多模態(tài)編碼器負(fù)責(zé)提取特征標(biāo)記,變換器編碼器負(fù)責(zé)聚合兩種模式的特征,并基于變換器解碼器中的注意機(jī)制預(yù)測(cè)最合適的目標(biāo)。

隨后,提出了一種新的名詞—代詞提取方法來(lái)訓(xùn)練模型。

具體來(lái)說(shuō),基于知識(shí)提煉框架,以無(wú)監(jiān)督學(xué)習(xí)的方式訓(xùn)練AI通過(guò)上下文猜測(cè)名詞原型。

比如原來(lái)的實(shí)例分割任務(wù)是用滑板挖洞,但是在訓(xùn)練模型的時(shí)候,名詞滑板會(huì)被代詞某物代替:

這種分割效果在實(shí)際案例中表現(xiàn)如何。

目標(biāo)探測(cè)準(zhǔn)確率提高10.9%

本文在大規(guī)模任務(wù)數(shù)據(jù)集COCO—Tasks上對(duì)TOIST進(jìn)行了測(cè)試。

評(píng)價(jià)方法采用mAP,常見(jiàn)于目標(biāo)檢測(cè)等視覺(jué)任務(wù)。

簡(jiǎn)單來(lái)說(shuō),TOIST在例如分割和目標(biāo)檢測(cè)方面比以前的SOTA模型表現(xiàn)得更好,而添加了名詞代詞提取方法的增強(qiáng)版TOIST的表現(xiàn)比TOIST in好上一層樓。

與目前最好的Yolo+GGNN相比,增強(qiáng)版TOIST的決策幀精度圖在目標(biāo)檢測(cè)任務(wù)中提高了10.9%,在案例分割任務(wù)中,mask精度比Mask—RCNN+GGNN提高了6.6%。

對(duì)于名詞—代詞提取方法,與TOIST的原始版本相比,實(shí)例切分的準(zhǔn)確率分別提高了2.8%和3.8%。

在具體的案例表現(xiàn)上,模型效果也非常接近實(shí)際的分割真值。

比如圖中,算法甚至識(shí)別出啤酒瓶蓋可以用桌子打開(kāi),在理解上可以說(shuō)是滿分:

我們實(shí)驗(yàn)室其實(shí)是負(fù)責(zé)機(jī)器人的研究的,但是在平時(shí)的調(diào)查中發(fā)現(xiàn),用戶有時(shí)候更喜歡向機(jī)器人描述需求,而不是直接告訴他們?cè)撟鍪裁础?/p>

換句話說(shuō),AI算法是用來(lái)讓機(jī)器人想得更多,而不僅僅是一個(gè)聽(tīng)從命令的助手。

李鵬飛,清華大學(xué)智能產(chǎn)業(yè)研究院博士生,畢業(yè)于中國(guó)科學(xué)院大學(xué)他的研究興趣是自動(dòng)駕駛和計(jì)算機(jī)視覺(jué)

對(duì)大視覺(jué)—語(yǔ)言模型感興趣的朋友可以試試這個(gè)新思路~

論文地址:

項(xiàng)目地址:

。


聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
hhx6 精彩圖片