不同的地方有不同地方的名言警句,比如在水滸里的景陽岡,除了武松,當(dāng)?shù)厝硕枷嘈?ldquo;三碗不過崗”。在科技業(yè),也有這樣的名言共識,最出名的一句是 “數(shù)據(jù)是新時代的石油”。
這句話流行于大數(shù)據(jù)時代,在人工智能時代,聲譽則達到頂峰。人工智能的三要素是算法、算力和數(shù)據(jù),算法幾十年間沒有本質(zhì)的變化,深度學(xué)習(xí)是舊技術(shù),是暴力計算加上海量數(shù)據(jù),導(dǎo)致了新一輪人工智能井噴。
對于人工智能而言,數(shù)據(jù)確實有點像發(fā)動機里的燃油,沒有燃油,發(fā)動機沒有動力,沒有數(shù)據(jù),人工智能也沒法產(chǎn)生智能。
而在上一次工業(yè)革命時期,誰掌握能源,誰就有最強大的工業(yè)能力;而在第四次工業(yè)革命時代,在數(shù)字經(jīng)濟時代,誰擁有最多的數(shù)據(jù),誰就能有更強大的人工智能平臺。
從這個角度看,數(shù)據(jù)確實像石油。
但是,我們可能忽略了一點,石油是沒有生命的,而數(shù)據(jù)是有生命的。
沉積巖中的石油雖然看起來是“生物”的后代,是歷代古生物遺骸被加熱加壓后的產(chǎn)物,但黑色的石油歸根到底是沒有生命跡象的,我們無法從石油中,還原出生物的DNA(因此,很多人懷疑,石油壓根不是生物產(chǎn)物,而是像石頭一樣是純自然產(chǎn)物)。
而零一代碼組成的數(shù)據(jù)看起來毫無生命氣息所在,甚至連一個實體都沒有,它們就這樣安靜的存放在計算機的存儲設(shè)備之中。但數(shù)據(jù)卻是有生命的,因為它是人類在數(shù)字世界的真實行為的直接映射。
我們的每一句網(wǎng)絡(luò)發(fā)言,數(shù)字攝像頭里拍到的每一個畫面,每一筆購物清單,這些數(shù)據(jù),并不是冷冰冰的代碼。這些數(shù)據(jù)整合起來,就是人類自身,就是屬于每一個人的數(shù)字自傳。
在技術(shù)的作用下,我們完全可以通過這些數(shù)據(jù)還原成一個人,看看他到底是不是購物狂,是不是體育迷或者某明星的死忠粉。
數(shù)據(jù)可以讓一個人完全透明化。有句話說,看人要論跡不論心,但在數(shù)據(jù)時代,網(wǎng)絡(luò)蹤跡就是人心。
所以數(shù)據(jù)就成了我們每一個人的數(shù)字DNA,數(shù)據(jù)能做的事情其實遠不止于還原一個人,它甚至還能操控一個人。
現(xiàn)在美國正在進行總統(tǒng)選舉辯論,大選如火如荼。
就在幾年前,偶然間接觸了一位來自某國的某競選團隊的CTO,一個長得像黑客的技術(shù)高手。但是他說,你知道嗎,哥們,黑掉一部電腦的黑客已經(jīng)過時了,黑掉一個人的大腦才是高手。
圖片來源/Javad Rajabzade
什么叫黑掉一個人的大腦?就是通過這個人的行為數(shù)據(jù),分析其喜好,然后對其發(fā)送各種有針對性的信息,影響他的認知判斷,最終改變其行為?;蛘呦喾?,根據(jù)他的興趣愛好,不停的灌輸同一種信息,讓其堅信既有觀念不動搖。
這個被黑掉的大腦以為自己在自行其是的做決策,其實一切都是設(shè)計好的結(jié)果。很多事,你以為是你以為的,但是其實是別人讓你以為是你以為的,你在第一層,黑掉大腦的黑客在第二層,操控這些大腦黑客的在第三層。
還記得諾蘭的電影《盜夢空間》么?現(xiàn)實世界里,我們無法到一個人的夢里,但是有些“黑客”就是可以通過一個人的數(shù)據(jù),到他的大腦里。不是盜夢空間,勝似盜夢空間。
當(dāng)然,除了人類會產(chǎn)生數(shù)據(jù),機器也會產(chǎn)生數(shù)據(jù)。但是別忘了,機器產(chǎn)生的數(shù)據(jù),也是為人類服務(wù)的,所以機器數(shù)據(jù),即是人類數(shù)據(jù)。
所以,無論怎么看,數(shù)據(jù)里都有活生生的生命力,數(shù)據(jù)就是人類自身。我們不在寫書法,只會敲代碼,幾千年后的考古,就是在數(shù)據(jù)中發(fā)現(xiàn)我們的生活足跡。
我曾經(jīng)在一次大會主持上,問幾位人工智能專家,假設(shè)未來有一天真的出現(xiàn)人工智能,它能看到我們現(xiàn)在訪談的場面,你現(xiàn)在對這個攝像機鏡頭,要對它說什么?幾位專家發(fā)言立刻變得很謹慎,因為專家們知道,有一天,有一部機器,它真能看到這一刻。
所以,沒有生命力的石油是可以隨便出口的,哪怕是敵對的國家,也不在意兩國互換石油。
但是數(shù)據(jù)不一樣,數(shù)據(jù)的生命力讓數(shù)據(jù)的遷移和人口的遷移沒有什么兩樣。如果人類到某國需要簽證,那么數(shù)據(jù)也需要簽證。
甚至,不出國的數(shù)據(jù)也很敏感。前一陣,李開復(fù)說幫助曠世科技拿到了螞蟻金服的數(shù)據(jù),立刻引來兩家公司的第一時間澄清。你看,數(shù)據(jù)之敏感,連有股份關(guān)系的合作伙伴都要避嫌。對數(shù)據(jù)的避嫌,比對有競業(yè)條款的員工的限制還要多。
N年前,李彥宏曾經(jīng)說過一句話,中國人不在乎數(shù)據(jù)隱私,愿意犧牲掉這些換取一些互聯(lián)網(wǎng)服務(wù)的便利。其實,當(dāng)時的人不是不在乎,是不知道數(shù)據(jù)有多重要。就像寫于1031-1095的《夢溪筆談》,并不知道石油可以帶來第二次工業(yè)革命一樣。
不過說過這番話的李彥宏,并沒有做出依賴數(shù)據(jù)算法推薦的今日頭條。而前一陣,李彥宏又說,算法不應(yīng)該太照顧用戶的喜好,這句話用本文的邏輯翻譯一下,意思就是系統(tǒng)不應(yīng)該輕易動用數(shù)據(jù)權(quán)力,黑掉一個人的大腦,這句話就挺好的,比用戶不在乎隱私好。只不過,固然系統(tǒng)不應(yīng)該總為用戶喂甜食,但是不當(dāng)?shù)奈估称芬彩遣粚Φ摹?/p>
1947年10月,衍生出 WTO的關(guān)貿(mào)總協(xié)定出現(xiàn)了,人類有了一個基于商品互換的全球貿(mào)易談判體系。那之后,無論國與國的貿(mào)易怎么談,無非是代價價碼問題。但是70年之后,WTO已無法解決數(shù)據(jù)問題,因為WTO不是為處理依靠人類數(shù)據(jù)喂養(yǎng)滋生,有意識形態(tài)的“商品”設(shè)立的,老革命遇到了新問題。所以,上個月11號,鄰國上任很久,即將卸任的首相和英國上任不太久的首相談了個貿(mào)易協(xié)議,其中有個專門的數(shù)據(jù)條款,有可能是標志性的。
前陣看一部國產(chǎn)動畫,叫元龍,一部穿越題材作品,當(dāng)男主人公掏出一把手槍,干掉了古代一個功夫不錯的公子哥時,彈幕上有句話刷了屏:“大人,時代變了”。
可不,時代變了。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。