浙大 amp; 微軟推出的 HuggingGPT 爆火之后,剛剛開放了 demo,急不可待的網(wǎng)友自己上手體驗(yàn)了一番。
最強(qiáng)組合 HuggingFace+ChatGPT=「賈維斯」現(xiàn)在開放 demo 了。
前段時(shí)間,浙大 amp; 微軟發(fā)布了一個(gè)大模型協(xié)作系統(tǒng) HuggingGPT 直接爆火。
研究者提出了用 ChatGPT 作為控制器,連接 HuggingFace 社區(qū)中的各種 AI 模型,完成多模態(tài)復(fù)雜任務(wù)。
整個(gè)過程,只需要做的是:用自然語言將你的需求輸出。
英偉達(dá)科學(xué)家稱,這是我本周讀到的最有意思的論文。它的思想非常接近我之前說的「Everything App」,即萬物皆 App,被 AI 直接讀取信息。
上手體驗(yàn)
現(xiàn)在,HuggingGPT 增加了 Gradio 演示。
有網(wǎng)友便上手體驗(yàn)了一番,先來「識別圖上有幾個(gè)人」?
具體過程如下:
首先使用圖像到文本模型 nlpconnect / vit-gpt2-image-captioning 進(jìn)行圖像描述,生成的文本「2 個(gè)女人在有火車的街道上行走」。
再使用視覺問題回答模型 dandelin / vilt-b32-finetuned-vqa 得出結(jié)果。最后,系統(tǒng)提供了詳細(xì)的響應(yīng)和用于解答問題的模型信息。
另外,讓它理解「我愛你」這句話的情感,并將其翻譯成泰米爾語。
HuggingGPT 調(diào)用了以下模型:
首先,使用了模型「dslim / bert-base-NER」對文本「l love you」進(jìn)行情感分類,是「浪漫」。
然后,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。
轉(zhuǎn)錄 MP3 文件時(shí),HuggingGPT 卻失敗了。網(wǎng)友表示,「不確定這是否是我的輸入文件的問題?!?/p>
再來看看圖像生成的能力。
輸入「一只貓?zhí)琛箞D像上添加文字「I LOVE YOU」作為疊加層。
賈維斯照進(jìn)現(xiàn)實(shí)
項(xiàng)目公開沒幾天,賈維斯已經(jīng)在 GitHub 上收獲了 12.5k 星,以及 811 個(gè) fork。
研究者指出解決大型語言模型當(dāng)前的問題,可能是邁向 AGI 的第一步,也是關(guān)鍵的一步。
因?yàn)楫?dāng)前大型語言模型的技術(shù)仍然存在著一些缺陷,因此在構(gòu)建 AGI 系統(tǒng)的道路上面臨著一些緊迫的挑戰(zhàn)。
為了處理復(fù)雜的人工智能任務(wù),LLMs 應(yīng)該能夠與外部模型協(xié)調(diào),以利用它們的能力。
因此,關(guān)鍵點(diǎn)在于如何選擇合適的中間件來橋接 LLMs 和 AI 模型。
在這篇研究論文中,研究者提出在 HuggingGPT 中語言是通用的接口。其工作流程主要分為四步:
首先是任務(wù)規(guī)劃,ChatGPT 解析用戶請求,將其分解為多個(gè)任務(wù),并根據(jù)其知識規(guī)劃任務(wù)順序和依賴關(guān)系。
接著,進(jìn)行模型選擇。LLM 根據(jù) HuggingFace 中的模型描述將解析后的任務(wù)分配給專家模型。
然后執(zhí)行任務(wù)。專家模型在推理端點(diǎn)上執(zhí)行分配的任務(wù),并將執(zhí)行信息和推理結(jié)果記錄到 LLM 中。
最后是響應(yīng)生成。LLM 總結(jié)執(zhí)行過程日志和推理結(jié)果,并將摘要返回給用戶。
假如給出這樣一個(gè)請求:
可以看到 HuggingGPT 是如何將它拆解為 6 個(gè)子任務(wù),并分別選定模型執(zhí)行得到最終結(jié)果的。
通過將 AI 模型描述納入提示中,ChatGPT 可以被視為管理人工智能模型的大腦。因此,這一方法可以讓 ChatGPT 能夠調(diào)用外部模型,來解決實(shí)際任務(wù)。
簡單來講,HuggingGPT 是一個(gè)協(xié)作系統(tǒng),并非是大模型。
它的作用就是連接 ChatGPT 和 HuggingFace,進(jìn)而處理不同模態(tài)的輸入,并解決眾多復(fù)雜的人工智能任務(wù)。
所以,HuggingFace 社區(qū)中的每個(gè) AI 模型,在 HuggingGPT 庫中都有相應(yīng)的模型描述,并將其融合到提示中以建立與 ChatGPT 的連接。
隨后,HuggingGPT 將 ChatGPT 作為大腦來確定問題的答案。
到目前為止,HuggingGPT 已經(jīng)圍繞 ChatGPT 在 HuggingFace 上集成了數(shù)百個(gè)模型,涵蓋了文本分類、目標(biāo)檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等 24 個(gè)任務(wù)。
實(shí)驗(yàn)結(jié)果證明,HuggingGPT 可以在各種形式的復(fù)雜任務(wù)上表現(xiàn)出良好的性能。
網(wǎng)友熱評
有網(wǎng)友稱,HuggingGPT 類似于微軟此前提出的 Visual ChatGPT,似乎他們把最初的想法擴(kuò)展到了一組龐大的預(yù)訓(xùn)練模型上。
Visual ChatGPT 是直接基于 ChatGPT 構(gòu)建,并向其注入了許多可視化模型。文中提出了 Prompt Manage。
在 PM 的幫助下,ChatGPT 可以利用這些 VFMs,并以迭代的方式接收其反饋,直到滿足用戶的要求或達(dá)到結(jié)束條件。
還有網(wǎng)友認(rèn)為,這個(gè)想法確實(shí)與 ChatGPT 插件非常相似。以 LLM 為中心進(jìn)行語義理解和任務(wù)規(guī)劃,可以無限提升 LLM 的能力邊界。通過將 LLM 與其他功能或領(lǐng)域?qū)<蚁嘟Y(jié)合,我們可以創(chuàng)建更強(qiáng)大、更靈活的 AI 系統(tǒng),能夠更好地適應(yīng)各種任務(wù)和需求。
這就是我一直以來對 AGI 的看法,人工智能模型能夠理解復(fù)雜任務(wù),然后將較小的任務(wù)分派給其他更專業(yè)的 AI 模型。
就像大腦一樣,它也有不同的部分來完成特定的任務(wù),聽起來很符合邏輯。
參考資料:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
相關(guān)新聞
- 美媒:特斯拉新電池工廠落戶上海,將鞏固中國儲能領(lǐng)
- 新能源原材料價(jià)格回調(diào),吉利睿藍(lán)9調(diào)價(jià):最高降2萬
- 珠三角開行今年首趟高鐵旅游專列,深圳出發(fā)桂林返回
- 中興AxonPad平板電腦官宣4月12日發(fā)布:搭
- 南通加快重點(diǎn)文旅項(xiàng)目招商建設(shè)打造長三角新興旅游目
- 2000位經(jīng)銷商會師蓉城,舍得酒業(yè)2023年經(jīng)銷
- 坐標(biāo)東南西北「白象泡面工廠」火速出圈是巧合嗎?
- 友邦吊頂聯(lián)合法獅龍等新設(shè)知識產(chǎn)權(quán)公司,注冊資本為
- 每周金選湯姆貓海外子公司已接入GPT的API;貝
- 董菲:南國明珠活力十足


- 第三屆中國國際消費(fèi)品博覽會今日開幕參展企業(yè)搶抓
- 長城汽車3月銷量90240輛,同比下降10.5
- AI無法打敗AI,ChatGPT檢測器頻繁冤枉
- 年報(bào)重復(fù)的內(nèi)容太多,應(yīng)該怎么讀?
- 一汽紅旗混動平臺HMP發(fā)布,下半年推出2款HM
- 萬科的新思路:從房地產(chǎn)向城市服務(wù)提供商轉(zhuǎn)型
- 迎廣推出POC系列ITX機(jī)箱:“折紙”設(shè)計(jì),彎
- 《神偷奶爸》制作組新作《飛鴨向前沖》預(yù)告片公開
- 戴森首款洗地吸塵器V12DetectSlimN
- 清華大學(xué)與螞蟻集團(tuán)合作,攻堅(jiān)“下一代互聯(lián)網(wǎng)應(yīng)用