**運(yùn)動(dòng)技能自動(dòng)評(píng)估的突破:博爾扎諾自由大學(xué)的創(chuàng)新研究**
在體育訓(xùn)練、教練指導(dǎo)和人才發(fā)展領(lǐng)域,如何客觀評(píng)估運(yùn)動(dòng)員技能水平一直是個(gè)挑戰(zhàn)。2025年6月,意大利博爾扎諾自由大學(xué)工程學(xué)院的Edoardo Bianchi和Antonio Liotta教授在arXiv上發(fā)表了一項(xiàng)創(chuàng)新研究,題為"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment"(技能感知時(shí)序采樣法:用于多視角運(yùn)動(dòng)技能評(píng)估),為解決這一問題提供了新思路。這項(xiàng)研究已作為預(yù)印本發(fā)布在arXiv:2506.04996v1,感興趣的讀者可以通過arXiv網(wǎng)站查閱完整論文。
**為什么運(yùn)動(dòng)技能評(píng)估如此重要又如此困難?**
想象一下,當(dāng)你觀看一場(chǎng)籃球比賽時(shí),你能輕松分辨出專業(yè)球員和業(yè)余愛好者的區(qū)別。專業(yè)球員的運(yùn)球節(jié)奏更加流暢,傳球時(shí)機(jī)把握得更準(zhǔn)確,投籃動(dòng)作更加一氣呵成。這些微妙的差異構(gòu)成了技能水平的本質(zhì),但讓計(jì)算機(jī)理解這些差異卻非常困難。
與簡(jiǎn)單地識(shí)別"這是籃球運(yùn)球"不同,技能評(píng)估需要計(jì)算機(jī)理解"這個(gè)運(yùn)球做得有多好"。這就像區(qū)分"會(huì)做飯"和"是米其林大廚"的差距——不是識(shí)別行為本身,而是評(píng)判行為的質(zhì)量。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前的視頻分析方法存在一個(gè)根本性缺陷:它們通常是從視頻中隨機(jī)或均勻地抽取幀進(jìn)行分析,這就像看電影時(shí)隨機(jī)跳過大段情節(jié)一樣,破壞了動(dòng)作的連貫性。想象你試圖評(píng)價(jià)一位芭蕾舞者的表演,但只能看到隨機(jī)幾個(gè)靜止畫面,這顯然無法真實(shí)評(píng)估其舞蹈水平。
**PATS方法:讓AI像專業(yè)教練一樣觀察運(yùn)動(dòng)員**
博爾扎諾自由大學(xué)的研究團(tuán)隊(duì)提出的PATS(Proficiency-Aware Temporal Sampling,技能感知時(shí)序采樣)方法,本質(zhì)上是教會(huì)AI像專業(yè)教練那樣觀察運(yùn)動(dòng)員的完整動(dòng)作序列,而不是碎片化的瞬間。
想象一位體操教練觀察運(yùn)動(dòng)員的表現(xiàn)。教練不會(huì)只看幾個(gè)隨機(jī)瞬間,而是會(huì)關(guān)注完整的動(dòng)作組合——從起跑、騰空到落地的整個(gè)過程。PATS方法正是模擬了這種觀察方式:它從視頻中提取完整、連續(xù)的時(shí)間片段,確保每個(gè)片段都包含至少一個(gè)完整的基礎(chǔ)動(dòng)作,然后在多個(gè)這樣的片段中進(jìn)行分析,從而全面評(píng)估運(yùn)動(dòng)員的技能水平。
**PATS如何工作?像剪輯電影一樣提取關(guān)鍵片段**
PATS方法的工作原理可以類比為一位精明的電影剪輯師,需要從一部長(zhǎng)電影中剪出幾個(gè)關(guān)鍵片段來展示演員的表演能力。
這位"剪輯師"由三個(gè)關(guān)鍵參數(shù)指導(dǎo)工作: 1. 需要提取的總幀數(shù)(相當(dāng)于總時(shí)長(zhǎng)) 2. 要分割的時(shí)間段數(shù)量(相當(dāng)于要剪出幾個(gè)片段) 3. 每個(gè)時(shí)間段的理想持續(xù)時(shí)間(每個(gè)片段多長(zhǎng))
假設(shè)我們有一段3分鐘的籃球運(yùn)球視頻,PATS會(huì)根據(jù)設(shè)置提取例如2個(gè)各15秒的連續(xù)片段,而不是隨機(jī)抽取30個(gè)散亂的畫面。這確保了AI可以觀察到完整的運(yùn)球節(jié)奏和連貫性,就像真正的籃球教練會(huì)做的那樣。
PATS還會(huì)根據(jù)視頻的總長(zhǎng)度智能調(diào)整片段的分布,確保它們均勻分布在整個(gè)表演過程中,捕捉到從開始到結(jié)束的不同階段。它還能處理各種邊界情況,比如視頻過短或過長(zhǎng)的情況,確保即使在不理想的條件下也能獲得最佳效果。
**驗(yàn)證PATS效果:在EgoExo4D數(shù)據(jù)集上的出色表現(xiàn)**
研究團(tuán)隊(duì)將PATS集成到一個(gè)名為SkillFormer的現(xiàn)有技能評(píng)估系統(tǒng)中進(jìn)行測(cè)試。SkillFormer是一個(gè)專門用于評(píng)估運(yùn)動(dòng)技能的AI系統(tǒng),能夠同時(shí)處理第一人稱視角(想象運(yùn)動(dòng)員頭戴相機(jī)拍攝的畫面)和第三人稱視角(想象教練從旁邊拍攝的畫面)的視頻。
測(cè)試使用了EgoExo4D數(shù)據(jù)集,這是一個(gè)包含1,200多小時(shí)視頻、來自740名參與者的大型數(shù)據(jù)集,涵蓋了烹飪、音樂、籃球、攀巖、足球和舞蹈六個(gè)領(lǐng)域,每個(gè)視頻都標(biāo)注了四個(gè)技能等級(jí):新手、初級(jí)專家、中級(jí)專家和高級(jí)專家。
結(jié)果令人印象深刻:在所有視角配置下,PATS都提高了系統(tǒng)的準(zhǔn)確率:第一人稱視角提高了3.05%,第三人稱視角提高了0.65%,組合視角提高了1.05%。
特別值得一提的是,在某些特定領(lǐng)域,PATS帶來了更顯著的提升:攀巖技能評(píng)估準(zhǔn)確率提高了驚人的26.22%,音樂表演評(píng)估提高了2.39%,籃球技能評(píng)估提高了1.13%。
**為不同活動(dòng)定制的最佳觀察策略**
研究團(tuán)隊(duì)通過系統(tǒng)分析發(fā)現(xiàn),不同類型的活動(dòng)需要不同的觀察策略,這與人類專業(yè)教練的行為非常相似。
對(duì)于籃球這類動(dòng)態(tài)活動(dòng),高頻率采樣(每秒4-5.33幀)加上較少的時(shí)間段(2個(gè))效果最好,因?yàn)檫@能保持游戲流的連貫性。籃球在使用這種策略時(shí)達(dá)到了所有活動(dòng)中最高的絕對(duì)準(zhǔn)確率:78.76%。
而對(duì)于音樂演奏這類結(jié)構(gòu)化的順序活動(dòng),低頻率采樣(每秒0.89幀)配合更多的時(shí)間段(12個(gè))效果最佳,因?yàn)檫@能捕捉到演奏中的精細(xì)變化。音樂表演使用這種策略達(dá)到了74.14%的準(zhǔn)確率。
烹飪活動(dòng)則在使用第三人稱視角、高頻率采樣(每秒4幀)和中等數(shù)量時(shí)間段(8個(gè))時(shí)表現(xiàn)最佳,達(dá)到60.53%的準(zhǔn)確率,這可能是因?yàn)榕腼兗记尚枰獜耐獠壳逦^察操作細(xì)節(jié)。
攀巖則更依賴第一人稱視角的快速采樣(每秒5.33幀,2個(gè)時(shí)間段),專注于攀登者自身的體感反饋,使用這種策略達(dá)到42.31%的準(zhǔn)確率。
**PATS的實(shí)際應(yīng)用前景**
這項(xiàng)研究的應(yīng)用前景令人期待。想象一下以下場(chǎng)景:
- 運(yùn)動(dòng)訓(xùn)練應(yīng)用可以分析業(yè)余運(yùn)動(dòng)員的視頻,提供專業(yè)級(jí)的技術(shù)改進(jìn)建議,就像隨身攜帶一位私人教練。 - 體育賽事直播可以實(shí)時(shí)評(píng)估運(yùn)動(dòng)員的技術(shù)動(dòng)作質(zhì)量,為觀眾提供更深入的比賽分析。 - 運(yùn)動(dòng)天賦識(shí)別系統(tǒng)可以通過分析年輕運(yùn)動(dòng)員的視頻,發(fā)現(xiàn)那些具有專業(yè)潛力的人才。 - 康復(fù)中心可以更準(zhǔn)確地評(píng)估患者的運(yùn)動(dòng)恢復(fù)進(jìn)度,制定更精準(zhǔn)的康復(fù)計(jì)劃。
更值得注意的是,PATS的設(shè)計(jì)非常實(shí)用——它作為一個(gè)預(yù)處理步驟工作,不需要改變現(xiàn)有AI系統(tǒng)的架構(gòu),也不增加計(jì)算負(fù)擔(dān),這意味著它可以相對(duì)容易地集成到現(xiàn)有的視頻分析系統(tǒng)中。
**PATS的局限性與未來研究方向**
盡管PATS取得了顯著成果,研究團(tuán)隊(duì)也坦誠(chéng)承認(rèn)它的一些局限性。在舞蹈等主觀性較強(qiáng)的領(lǐng)域,基礎(chǔ)方法有時(shí)表現(xiàn)更好,這表明PATS可能未能充分捕捉舞蹈中的節(jié)奏和美學(xué)成分。在足球領(lǐng)域,PATS在第一人稱視角的表現(xiàn)有所下降,表明該采樣策略可能不適合某些特定的活動(dòng)-視角組合。
研究團(tuán)隊(duì)建議未來研究應(yīng)關(guān)注自動(dòng)配置選擇機(jī)制、增強(qiáng)節(jié)奏活動(dòng)的時(shí)序建模,以及整合音頻和觸覺反饋等多模態(tài)信息。他們還提出使用元學(xué)習(xí)方法實(shí)現(xiàn)跨領(lǐng)域的快速適應(yīng),進(jìn)一步提高系統(tǒng)在新領(lǐng)域的泛化能力。
**結(jié)語(yǔ):邁向更智能的運(yùn)動(dòng)技能評(píng)估**
博爾扎諾自由大學(xué)研究團(tuán)隊(duì)的PATS方法代表了運(yùn)動(dòng)技能自動(dòng)評(píng)估領(lǐng)域的重要進(jìn)步。通過模擬專業(yè)教練的觀察方式,PATS讓AI系統(tǒng)能夠像人類專家一樣連貫地觀察和評(píng)估運(yùn)動(dòng)表現(xiàn),為體育訓(xùn)練、教練指導(dǎo)和人才發(fā)展提供了更準(zhǔn)確、更可靠的技術(shù)支持。
正如研究團(tuán)隊(duì)所展示的,不同運(yùn)動(dòng)活動(dòng)需要不同的觀察策略,這一發(fā)現(xiàn)不僅提高了技能評(píng)估的準(zhǔn)確性,也加深了我們對(duì)專業(yè)技能本質(zhì)的理解。未來,隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們可能會(huì)看到更加個(gè)性化、精準(zhǔn)的運(yùn)動(dòng)技能評(píng)估系統(tǒng),讓每個(gè)人都能獲得專業(yè)級(jí)的技術(shù)指導(dǎo),無論是專業(yè)運(yùn)動(dòng)員還是周末愛好者。
如果你對(duì)這項(xiàng)研究感興趣,可以在arXiv網(wǎng)站上搜索"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment",或者直接訪問arXiv:2506.04996v1查閱完整論文。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。