av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 耶魯大學(xué)推出MMVU:AI看視頻理解專(zhuān)業(yè)知識(shí)的"高考"真的來(lái)了!

耶魯大學(xué)推出MMVU:AI看視頻理解專(zhuān)業(yè)知識(shí)的"高考"真的來(lái)了!

2025-09-18 11:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-18 11:08 ? 科技行者

這項(xiàng)由耶魯大學(xué)的趙一倫、謝路靜、張浩維等研究團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年1月,研究成果已在arXiv平臺(tái)發(fā)布(arXiv:2501.12380v1),有興趣深入了解的讀者可以通過(guò)項(xiàng)目主頁(yè)mmvu-benchmark.github.io訪問(wèn)完整資料。

想象一下,如果我們要測(cè)試一個(gè)學(xué)霸朋友是否真的掌握了各個(gè)學(xué)科的知識(shí),我們會(huì)怎么做?可能會(huì)拿出化學(xué)實(shí)驗(yàn)視頻問(wèn)他反應(yīng)過(guò)程,或者播放醫(yī)學(xué)手術(shù)視頻考察他的診斷能力?,F(xiàn)在,耶魯大學(xué)的研究團(tuán)隊(duì)就是用這種方式來(lái)"考試"人工智能的。

他們創(chuàng)建了一個(gè)叫MMVU的測(cè)試系統(tǒng),就像是專(zhuān)門(mén)為AI設(shè)計(jì)的"高考"。這個(gè)測(cè)試不同于普通的選擇題,而是讓AI觀看各種專(zhuān)業(yè)領(lǐng)域的視頻,然后回答需要真正理解和推理的問(wèn)題。這就好比讓一個(gè)醫(yī)學(xué)生觀看真實(shí)的手術(shù)視頻來(lái)判斷病毒類(lèi)型,或者讓工程系學(xué)生通過(guò)觀看機(jī)械運(yùn)轉(zhuǎn)視頻來(lái)識(shí)別算法原理。

這項(xiàng)研究之所以重要,是因?yàn)槟壳暗腁I雖然在文字和圖片理解方面表現(xiàn)不錯(cuò),但在觀看專(zhuān)業(yè)視頻并進(jìn)行深度推理方面還存在很大挑戰(zhàn)。研究團(tuán)隊(duì)想要搞清楚,當(dāng)前最先進(jìn)的AI模型在面對(duì)需要專(zhuān)業(yè)知識(shí)的視頻理解任務(wù)時(shí),到底表現(xiàn)如何,距離人類(lèi)專(zhuān)家還有多大差距。

研究團(tuán)隊(duì)測(cè)試了32個(gè)目前最先進(jìn)的AI模型,包括大家熟知的GPT-4o、Claude等,結(jié)果發(fā)現(xiàn)即使是表現(xiàn)最好的模型,在這個(gè)專(zhuān)業(yè)視頻理解測(cè)試中的表現(xiàn)也遠(yuǎn)低于人類(lèi)專(zhuān)家。這個(gè)發(fā)現(xiàn)對(duì)于AI的未來(lái)發(fā)展具有重要意義,特別是在醫(yī)療、工程、科學(xué)研究等需要高度專(zhuān)業(yè)知識(shí)的領(lǐng)域。

一、搭建AI的"專(zhuān)業(yè)技能考場(chǎng)"

MMVU就像是為AI量身定制的專(zhuān)業(yè)能力測(cè)試場(chǎng)。研究團(tuán)隊(duì)精心設(shè)計(jì)了這個(gè)測(cè)試系統(tǒng),包含了3000道由人類(lèi)專(zhuān)家親自出題的問(wèn)題,覆蓋了科學(xué)、醫(yī)療保健、人文社科和工程四大領(lǐng)域的27個(gè)具體學(xué)科。

這個(gè)測(cè)試的設(shè)計(jì)理念就像是真實(shí)的專(zhuān)業(yè)考試。當(dāng)我們想測(cè)試一個(gè)化學(xué)專(zhuān)業(yè)學(xué)生的能力時(shí),不會(huì)只問(wèn)他化學(xué)方程式,而是會(huì)讓他觀看實(shí)際的化學(xué)反應(yīng)過(guò)程,然后詢(xún)問(wèn)反應(yīng)機(jī)理、產(chǎn)物預(yù)測(cè)等需要深度理解的問(wèn)題。MMVU正是采用了這種思路,讓AI觀看真實(shí)的專(zhuān)業(yè)領(lǐng)域視頻,然后回答需要專(zhuān)業(yè)知識(shí)和推理能力的問(wèn)題。

研究團(tuán)隊(duì)為了確保測(cè)試的質(zhì)量,采用了嚴(yán)格的"課本指導(dǎo)"方式來(lái)出題。專(zhuān)家們首先從各學(xué)科的權(quán)威教科書(shū)中選取核心概念,然后尋找能夠展現(xiàn)這些概念的視頻,最后設(shè)計(jì)出相應(yīng)的問(wèn)題。這就好比老師在準(zhǔn)備期末考試時(shí),會(huì)根據(jù)教學(xué)大綱的重點(diǎn)內(nèi)容來(lái)設(shè)計(jì)試題,確保考試能夠全面考查學(xué)生的掌握情況。

每道題目都配有詳細(xì)的解答過(guò)程和相關(guān)的專(zhuān)業(yè)知識(shí)背景。這不僅僅是為了給出標(biāo)準(zhǔn)答案,更重要的是為研究人員提供了分析AI模型錯(cuò)誤原因的依據(jù)。當(dāng)一個(gè)AI模型答錯(cuò)題時(shí),研究人員可以通過(guò)這些詳細(xì)信息分析到底是視覺(jué)理解出了問(wèn)題,還是專(zhuān)業(yè)知識(shí)不足,或者是推理邏輯有誤。

測(cè)試中的視頻都來(lái)自于具有創(chuàng)意共用許可證的YouTube內(nèi)容,這確保了使用的合法性。研究團(tuán)隊(duì)還特意排除了那些包含大量文字或語(yǔ)音解釋的視頻,因?yàn)樗麄兿霚y(cè)試的是AI對(duì)視覺(jué)信息的理解能力,而不是文字閱讀能力。這就好比在測(cè)試學(xué)生的觀察能力時(shí),我們會(huì)選擇那些需要仔細(xì)觀看才能理解的實(shí)驗(yàn)視頻,而不是那些有詳細(xì)旁白解釋的教學(xué)視頻。

二、人類(lèi)專(zhuān)家的"手把手"出題過(guò)程

為了確保測(cè)試題目的質(zhì)量和專(zhuān)業(yè)性,研究團(tuán)隊(duì)采用了一種非常嚴(yán)格的專(zhuān)家參與模式。他們招募了67位來(lái)自各個(gè)專(zhuān)業(yè)領(lǐng)域的專(zhuān)家,包括研究生、博士生和資深研究者,這些人就像是各個(gè)學(xué)科的"金牌教師"。

整個(gè)出題過(guò)程就像是精心設(shè)計(jì)一道道"壓軸題"。專(zhuān)家們首先需要深入研讀各自領(lǐng)域的權(quán)威教科書(shū),找出那些最適合通過(guò)視頻展現(xiàn)的核心概念。比如在化學(xué)領(lǐng)域,專(zhuān)家會(huì)選擇那些有明顯視覺(jué)變化的化學(xué)反應(yīng),如沉淀的形成、顏色的改變等;在工程領(lǐng)域,則會(huì)選擇機(jī)械運(yùn)轉(zhuǎn)、算法演示等動(dòng)態(tài)過(guò)程。

找到合適的概念后,專(zhuān)家們需要在YouTube上搜尋相關(guān)的教學(xué)視頻或演示視頻。這個(gè)過(guò)程就像是在浩如煙海的資料中尋找最佳的教學(xué)素材。不過(guò),他們有一個(gè)重要的限制條件:只能使用具有創(chuàng)意共用許可證的視頻,這確保了研究的合法性和可復(fù)制性。

接下來(lái)是最關(guān)鍵的出題環(huán)節(jié)。專(zhuān)家們需要為每個(gè)視頻設(shè)計(jì)2-3道題目,這些題目不能是簡(jiǎn)單的事實(shí)性問(wèn)答,而必須要求觀看者具備相關(guān)的專(zhuān)業(yè)知識(shí)并進(jìn)行深度思考。舉個(gè)例子,對(duì)于一個(gè)顯示化學(xué)反應(yīng)的視頻,題目不會(huì)問(wèn)"視頻中發(fā)生了什么",而是會(huì)問(wèn)"假設(shè)有2.24升氣體在標(biāo)準(zhǔn)狀態(tài)下完全參與反應(yīng),會(huì)產(chǎn)生多少克沉淀物",這就需要觀察者不僅要看懂視頻中的反應(yīng)過(guò)程,還要運(yùn)用化學(xué)計(jì)算知識(shí)。

每道題目完成后,專(zhuān)家還需要提供詳細(xì)的解答過(guò)程和相關(guān)的專(zhuān)業(yè)知識(shí)背景。這就像是老師不僅要給出標(biāo)準(zhǔn)答案,還要解釋每一個(gè)推理步驟,甚至要列出相關(guān)的知識(shí)點(diǎn)和參考資料。這些信息對(duì)于后續(xù)分析AI模型的表現(xiàn)至關(guān)重要。

為了保證質(zhì)量,每個(gè)題目在正式納入測(cè)試集之前,還要經(jīng)過(guò)另一位專(zhuān)家的審核。審核者需要確認(rèn)題目確實(shí)需要觀看視頻才能回答,不能僅憑文字或常識(shí)就能解決。如果發(fā)現(xiàn)問(wèn)題,題目會(huì)被返回給原作者修改,甚至可能被完全排除。

三、給AI模型來(lái)一場(chǎng)"專(zhuān)業(yè)能力大比拼"

研究團(tuán)隊(duì)將32個(gè)目前最先進(jìn)的AI模型都拉來(lái)參加了這場(chǎng)"專(zhuān)業(yè)視頻理解大考"。這些模型來(lái)自17個(gè)不同的機(jī)構(gòu),包括大家熟知的OpenAI、Google、Anthropic等科技巨頭,也有一些開(kāi)源模型。就像是邀請(qǐng)了各個(gè)學(xué)校的尖子生來(lái)參加競(jìng)賽一樣。

這場(chǎng)測(cè)試采用了兩種不同的答題方式。第一種叫做"思維鏈推理",就是讓AI模型像人類(lèi)學(xué)生一樣,先解釋自己的思考過(guò)程,然后給出最終答案。第二種是"直接回答",要求模型立即給出答案,不需要展示推理過(guò)程。這就好比考試時(shí)有些題目要求"寫(xiě)出解題步驟",有些題目只需要填寫(xiě)最終結(jié)果。

測(cè)試結(jié)果讓人既驚訝又深思。表現(xiàn)最好的是OpenAI的o1模型,準(zhǔn)確率達(dá)到了80%,這已經(jīng)接近人類(lèi)專(zhuān)家在開(kāi)卷考試中的表現(xiàn)了。不過(guò),這個(gè)成績(jī)是在一個(gè)較小的樣本上測(cè)得的,因?yàn)閛1模型的多模態(tài)版本當(dāng)時(shí)還沒(méi)有完全開(kāi)放。緊隨其后的是Google的Gemini 2.0 Flash Thinking模型,準(zhǔn)確率約為69.3%。

大多數(shù)其他模型的表現(xiàn)都相對(duì)較差。比如廣受關(guān)注的GPT-4o,準(zhǔn)確率只有66.7%,遠(yuǎn)低于人類(lèi)專(zhuān)家在開(kāi)卷考試中86.8%的準(zhǔn)確率。這個(gè)差距相當(dāng)明顯,說(shuō)明當(dāng)前的AI模型在專(zhuān)業(yè)視頻理解方面還有很大的提升空間。

特別值得注意的是,那些能夠進(jìn)行長(zhǎng)時(shí)間"思考"的模型表現(xiàn)更好。o1和Gemini 2.0 Flash Thinking都屬于這種類(lèi)型,它們?cè)诨卮饐?wèn)題時(shí)會(huì)經(jīng)歷更長(zhǎng)時(shí)間的推理過(guò)程,就像人類(lèi)專(zhuān)家會(huì)仔細(xì)思考后再回答問(wèn)題一樣。這提示我們,讓AI有更多時(shí)間"思考"可能是提高其專(zhuān)業(yè)推理能力的重要方向。

開(kāi)源模型的表現(xiàn)雖然整體不如商業(yè)模型,但也有一些亮點(diǎn)。Qwen2-VL-72B和DeepSeek-VL2等模型的表現(xiàn)已經(jīng)超過(guò)了人類(lèi)在閉卷考試中的水平,這對(duì)開(kāi)源AI的發(fā)展來(lái)說(shuō)是個(gè)積極信號(hào)。

四、AI犯錯(cuò)的"五宗罪"

為了深入了解AI模型在專(zhuān)業(yè)視頻理解中的問(wèn)題,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的錯(cuò)誤分析。他們發(fā)現(xiàn)AI模型主要在五個(gè)方面容易出錯(cuò),這些錯(cuò)誤類(lèi)型就像是學(xué)生考試中常見(jiàn)的失分點(diǎn)。

第一類(lèi)錯(cuò)誤是"視覺(jué)感知錯(cuò)誤",占所有錯(cuò)誤的18%。這就好比學(xué)生看走了眼,把題目中的關(guān)鍵信息看錯(cuò)了。比如在一個(gè)演示二叉樹(shù)遍歷算法的視頻中,AI模型明明看到的是深度優(yōu)先搜索的過(guò)程,卻錯(cuò)誤地識(shí)別成了廣度優(yōu)先搜索,完全顛倒了遍歷順序。還有一個(gè)有趣的例子是,在一個(gè)電磁學(xué)實(shí)驗(yàn)視頻中,AI模型把逐漸變透明的設(shè)備外殼誤認(rèn)為是水,導(dǎo)致對(duì)整個(gè)實(shí)驗(yàn)過(guò)程的理解完全錯(cuò)誤。

第二類(lèi)是"視覺(jué)感知中的專(zhuān)業(yè)知識(shí)誤用",占20%。這類(lèi)錯(cuò)誤更加復(fù)雜,AI模型雖然能看到視頻中的內(nèi)容,但缺乏相應(yīng)的專(zhuān)業(yè)知識(shí)來(lái)正確解釋所看到的現(xiàn)象。例如,在一個(gè)計(jì)算機(jī)算法演示視頻中,AI模型看到了屏幕上不斷變化的數(shù)字,但錯(cuò)誤地將這些數(shù)組索引當(dāng)作了要排序的數(shù)值,從而得出了錯(cuò)誤的算法類(lèi)型判斷。

第三類(lèi)是"推理中的專(zhuān)業(yè)知識(shí)誤用",這是最常見(jiàn)的錯(cuò)誤類(lèi)型,占27%。在這種情況下,AI模型能夠正確理解視頻內(nèi)容,但在運(yùn)用專(zhuān)業(yè)知識(shí)進(jìn)行推理時(shí)出現(xiàn)了偏差。一個(gè)典型例子是在生物學(xué)視頻分析中,模型雖然正確觀察到了物種分布的變化,但錯(cuò)誤地將其歸因于物種遷移,而實(shí)際上應(yīng)該是大陸漂移導(dǎo)致的地理隔離。

第四類(lèi)錯(cuò)誤是"過(guò)度依賴(lài)文字信息",占20%。這就像是學(xué)生只看題目文字,完全忽略了配圖或?qū)嶒?yàn)現(xiàn)象。一些AI模型在回答問(wèn)題時(shí),主要基于問(wèn)題中的文字描述進(jìn)行推理,而忽視了視頻中的關(guān)鍵信息。比如在一個(gè)醫(yī)學(xué)案例中,視頻清楚地展示了水代謝異常的過(guò)程,但AI模型卻基于問(wèn)題中提到的細(xì)胞功能,選擇了與鈉鉀泵相關(guān)的答案,完全偏離了視頻的核心內(nèi)容。

第五類(lèi)是"邏輯推理錯(cuò)誤",占6%。這類(lèi)錯(cuò)誤表現(xiàn)為AI模型在推理過(guò)程中出現(xiàn)自相矛盾或邏輯不一致的情況。例如,在一個(gè)機(jī)械工程問(wèn)題中,AI模型在分析過(guò)程中既承認(rèn)了彈性勢(shì)能和動(dòng)能之間可以相互轉(zhuǎn)換,也承認(rèn)了重力勢(shì)能和動(dòng)能之間的轉(zhuǎn)換關(guān)系,但在最終結(jié)論中卻否認(rèn)了重力勢(shì)能向彈性勢(shì)能的轉(zhuǎn)換可能性,這顯然是邏輯上的矛盾。

最后還有9%的錯(cuò)誤歸類(lèi)為"其他類(lèi)型",包括拒絕回答、輸出超長(zhǎng)或重復(fù)等技術(shù)性問(wèn)題。

這些錯(cuò)誤分析為AI模型的改進(jìn)指明了方向。顯然,當(dāng)前的AI模型需要在專(zhuān)業(yè)知識(shí)的整合運(yùn)用、復(fù)雜視覺(jué)場(chǎng)景的理解,以及邏輯一致性等方面進(jìn)行重點(diǎn)改進(jìn)。

五、人類(lèi)專(zhuān)家的表現(xiàn)標(biāo)桿

為了給AI模型的表現(xiàn)提供一個(gè)對(duì)比標(biāo)準(zhǔn),研究團(tuán)隊(duì)還測(cè)試了人類(lèi)專(zhuān)家在相同任務(wù)上的表現(xiàn)。他們邀請(qǐng)了5位專(zhuān)業(yè)人士,包括生物學(xué)、麻醉學(xué)和東亞文學(xué)等領(lǐng)域的研究生,以及部分論文作者,來(lái)回答隨機(jī)抽取的120道題目。

測(cè)試分為三個(gè)階段,就像是模擬不同難度等級(jí)的考試環(huán)境。第一階段是"閉卷考試",參與者只能依靠自己的知識(shí)儲(chǔ)備,在3.5小時(shí)內(nèi)完成答題,不允許查閱任何外部資料。結(jié)果人類(lèi)專(zhuān)家的平均準(zhǔn)確率是49.7%,這個(gè)成績(jī)雖然不算很高,但考慮到題目的跨學(xué)科性質(zhì)和專(zhuān)業(yè)難度,這個(gè)結(jié)果是可以理解的。畢竟,讓一個(gè)生物學(xué)專(zhuān)家去回答工程學(xué)問(wèn)題,或者讓文學(xué)專(zhuān)家解答醫(yī)學(xué)問(wèn)題,確實(shí)具有挑戰(zhàn)性。

第二階段是"開(kāi)卷考試",參與者可以使用互聯(lián)網(wǎng)、教科書(shū)等外部資源來(lái)輔助答題,時(shí)間限制為4小時(shí)。這種情況下,人類(lèi)專(zhuān)家的平均準(zhǔn)確率大幅提升到86.8%。這個(gè)結(jié)果反映了專(zhuān)業(yè)知識(shí)的重要性,也說(shuō)明當(dāng)人類(lèi)能夠查閱相關(guān)資料時(shí),他們的表現(xiàn)會(huì)顯著改善。這種提升幅度也從側(cè)面證明了MMVU測(cè)試題目的專(zhuān)業(yè)性和挑戰(zhàn)性。

第三階段是"標(biāo)準(zhǔn)答案指導(dǎo)下的修正",參與者可以參考標(biāo)準(zhǔn)答案中提供的專(zhuān)業(yè)知識(shí)和在線資源來(lái)修正自己的答案。在這種"開(kāi)卷+有提示"的情況下,人類(lèi)專(zhuān)家的準(zhǔn)確率達(dá)到了95.3%。這個(gè)結(jié)果表明,當(dāng)獲得適當(dāng)?shù)闹R(shí)支持時(shí),人類(lèi)專(zhuān)家基本能夠正確理解和分析這些專(zhuān)業(yè)視頻內(nèi)容。

這三個(gè)階段的結(jié)果為AI模型的表現(xiàn)提供了重要的參考標(biāo)準(zhǔn)。目前表現(xiàn)最好的o1模型達(dá)到80%的準(zhǔn)確率,已經(jīng)非常接近人類(lèi)專(zhuān)家在開(kāi)卷考試中的表現(xiàn),這是一個(gè)相當(dāng)令人印象深刻的成績(jī)。但大多數(shù)其他AI模型的表現(xiàn)還遠(yuǎn)低于人類(lèi)專(zhuān)家的開(kāi)卷考試水平,說(shuō)明在專(zhuān)業(yè)視頻理解方面還有很大的提升空間。

這個(gè)對(duì)比也揭示了一個(gè)有趣的現(xiàn)象:人類(lèi)專(zhuān)家在有外部知識(shí)支持的情況下表現(xiàn)顯著提升,這提示我們未來(lái)的AI系統(tǒng)可能也需要更好地整合外部知識(shí)庫(kù)和實(shí)時(shí)信息檢索能力。

六、測(cè)試結(jié)果的深層含義

MMVU測(cè)試的結(jié)果揭示了當(dāng)前AI技術(shù)發(fā)展中的一些重要趨勢(shì)和挑戰(zhàn)。首先,系統(tǒng)級(jí)思維能力的重要性得到了明確體現(xiàn)。那些能夠進(jìn)行長(zhǎng)時(shí)間推理的模型,如o1和Gemini 2.0 Flash Thinking,在測(cè)試中表現(xiàn)明顯優(yōu)于其他模型。這就好比在解決復(fù)雜問(wèn)題時(shí),那些愿意花時(shí)間仔細(xì)思考、多角度分析的學(xué)生往往能取得更好的成績(jī)。

鏈?zhǔn)剿季S推理也顯示出了明顯的優(yōu)勢(shì)。當(dāng)AI模型被要求先展示推理過(guò)程再給出答案時(shí),它們的準(zhǔn)確率普遍高于直接給答案的方式。這個(gè)發(fā)現(xiàn)其實(shí)符合人類(lèi)學(xué)習(xí)和思維的規(guī)律:當(dāng)我們把思考過(guò)程說(shuō)出來(lái)或?qū)懗鰜?lái)時(shí),往往能發(fā)現(xiàn)自己推理中的錯(cuò)誤,從而得到更準(zhǔn)確的結(jié)果。

開(kāi)源模型的進(jìn)步也值得關(guān)注。雖然整體表現(xiàn)還不如商業(yè)模型,但一些開(kāi)源模型如Qwen2-VL-72B和DeepSeek-VL2已經(jīng)達(dá)到了相當(dāng)不錯(cuò)的水平,甚至在某些方面超過(guò)了人類(lèi)的閉卷考試表現(xiàn)。這表明開(kāi)源AI社區(qū)的技術(shù)發(fā)展速度很快,未來(lái)可能會(huì)在某些應(yīng)用領(lǐng)域與商業(yè)模型形成競(jìng)爭(zhēng)。

測(cè)試還揭示了當(dāng)前AI模型在專(zhuān)業(yè)領(lǐng)域應(yīng)用中的局限性。即使是表現(xiàn)最好的模型,在面對(duì)需要深度專(zhuān)業(yè)知識(shí)的視頻理解任務(wù)時(shí),仍然與人類(lèi)專(zhuān)家存在明顯差距。這提醒我們,在醫(yī)療診斷、工程設(shè)計(jì)、科學(xué)研究等關(guān)鍵領(lǐng)域,AI系統(tǒng)還需要更多的改進(jìn)才能真正勝任專(zhuān)業(yè)工作。

從錯(cuò)誤分析中我們可以看到,當(dāng)前AI模型的問(wèn)題不僅僅是技術(shù)層面的,更涉及到知識(shí)整合、邏輯推理和上下文理解等深層認(rèn)知能力。這些發(fā)現(xiàn)為未來(lái)的AI研究指明了方向:需要更加注重多模態(tài)信息的綜合處理、專(zhuān)業(yè)知識(shí)的有效整合,以及推理能力的提升。

說(shuō)到底,MMVU不僅僅是一個(gè)測(cè)試工具,更像是一面鏡子,映照出當(dāng)前AI技術(shù)在專(zhuān)業(yè)應(yīng)用領(lǐng)域的真實(shí)水平。它告訴我們,雖然AI在很多方面已經(jīng)非常先進(jìn),但在需要深度專(zhuān)業(yè)知識(shí)和復(fù)雜推理的任務(wù)中,仍然有很長(zhǎng)的路要走。這個(gè)發(fā)現(xiàn)對(duì)于那些期望在近期內(nèi)看到AI完全替代專(zhuān)業(yè)人士的預(yù)期來(lái)說(shuō),提供了一個(gè)更加現(xiàn)實(shí)的參考。

同時(shí),這項(xiàng)研究也為AI技術(shù)的未來(lái)發(fā)展提供了一個(gè)清晰的路線圖。隨著模型能力的不斷提升,特別是在系統(tǒng)級(jí)思維和專(zhuān)業(yè)知識(shí)整合方面的改進(jìn),我們有理由相信未來(lái)的AI系統(tǒng)將能夠在更多專(zhuān)業(yè)領(lǐng)域發(fā)揮重要作用。MMVU作為一個(gè)持續(xù)的評(píng)估標(biāo)準(zhǔn),將幫助我們追蹤這一進(jìn)步過(guò)程,并為相關(guān)技術(shù)的發(fā)展提供重要指導(dǎo)。

Q&A

Q1:MMVU是什么?它與普通的AI測(cè)試有什么不同?

A:MMVU是耶魯大學(xué)開(kāi)發(fā)的專(zhuān)門(mén)測(cè)試AI模型專(zhuān)業(yè)視頻理解能力的評(píng)估系統(tǒng)。與普通AI測(cè)試不同,MMVU要求AI觀看真實(shí)的專(zhuān)業(yè)領(lǐng)域視頻(如化學(xué)實(shí)驗(yàn)、醫(yī)學(xué)手術(shù)、工程演示等),然后回答需要專(zhuān)業(yè)知識(shí)和推理能力的問(wèn)題,就像讓AI參加各個(gè)專(zhuān)業(yè)的"高考"一樣。

Q2:目前最先進(jìn)的AI模型在MMVU測(cè)試中表現(xiàn)如何?

A:表現(xiàn)最好的是OpenAI的o1模型,準(zhǔn)確率達(dá)到80%,接近人類(lèi)專(zhuān)家開(kāi)卷考試的水平。其他模型如GPT-4o的準(zhǔn)確率為66.7%,遠(yuǎn)低于人類(lèi)專(zhuān)家86.8%的開(kāi)卷考試成績(jī)。這說(shuō)明當(dāng)前AI在專(zhuān)業(yè)視頻理解方面還有很大提升空間。

Q3:AI模型在專(zhuān)業(yè)視頻理解中主要犯哪些錯(cuò)誤?

A:研究發(fā)現(xiàn)AI主要犯五類(lèi)錯(cuò)誤:視覺(jué)感知錯(cuò)誤(18%,如看錯(cuò)關(guān)鍵信息)、視覺(jué)感知中的專(zhuān)業(yè)知識(shí)誤用(20%)、推理中的專(zhuān)業(yè)知識(shí)誤用(27%,最常見(jiàn))、過(guò)度依賴(lài)文字信息而忽視視頻內(nèi)容(20%),以及邏輯推理錯(cuò)誤(6%)。這些錯(cuò)誤揭示了AI在專(zhuān)業(yè)知識(shí)整合和復(fù)雜推理方面的不足。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-