av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 “女博士”張晴晴的硬核AI創(chuàng)業(yè)經(jīng):做數(shù)據(jù)難于做芯片

“女博士”張晴晴的硬核AI創(chuàng)業(yè)經(jīng):做數(shù)據(jù)難于做芯片

2023-02-26 23:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2023-02-26 23:38 ? 周雅

在高校扎堆的北京北三環(huán)黃金地段,海淀文教產(chǎn)業(yè)園其實不那么打眼兒,但卻擅長收攬“金種子”入駐,創(chuàng)業(yè)公司Magic Data就是其中的一位了。

僅看名字,不難看出Magic Data的業(yè)務(wù):數(shù)據(jù)!這家公司成立至今不到7年,從不到10人擴張到100余人規(guī)模,客戶遍布全球200家頭部大廠,5年內(nèi)營業(yè)收入突破了一個小目標(biāo)(億元),成為AI語音數(shù)據(jù)服務(wù)圈的第一梯隊……在這其中,有一個人功不可沒。

她就是Magic Data創(chuàng)始人兼CEO張晴晴。

“女博士”張晴晴的硬核AI創(chuàng)業(yè)經(jīng):做數(shù)據(jù)難于做芯片

張晴晴身上有很多社會化的標(biāo)簽:女博士、創(chuàng)業(yè)先鋒。拋開這些,在與她1個半小時的交談中,我更多能明顯感受到她對于事業(yè)的激情與執(zhí)著,因此你什么問題都能問,她什么也都能接的住。后來我才發(fā)現(xiàn),這本來就是她的日常之一,在個人視頻號里經(jīng)常分享各種觀點:關(guān)于數(shù)據(jù)、關(guān)于AI、關(guān)于ChatGPT、創(chuàng)業(yè)&科研、ToB服務(wù)、管理、IT女性,等等,科普性極強。

所以你很容易在AI的圈子里,看到張晴晴的分享。就像你很難在AI的賽道里,不討論數(shù)據(jù)一樣——因為說到底,張晴晴的成長,也伴隨著中國人工智能產(chǎn)業(yè)的成長。

時間調(diào)回到約20年前,人工智能非常不火,不火到學(xué)這個專業(yè)的大學(xué)生可能一畢業(yè)就面臨失業(yè),甚至大學(xué)里沒有真正教AI的老師,還得從通信專業(yè)里“借”老師,張晴晴打趣道:“人工智能的前身可能是通信”??蓞s在那時,張晴晴對語音識別萌生了興趣。

大三那年,她偶然選修了一門課叫做“語音數(shù)字信號處理”,學(xué)習(xí)人的發(fā)音機理,再把發(fā)音過程通過信號建模出來,做成語音合成——“我覺得這特別有趣。”她說。

后來在保研過程中,張晴晴一心想繼續(xù)學(xué)語音信號處理,恰巧看到中科院在招生,就毫不猶豫報了名。最終結(jié)果是,她在北郵通信學(xué)院600多個報名的學(xué)生中脫穎而出,以第7名的成績被保送到中科院聲學(xué)研究所,師從中科院語言聲學(xué)與內(nèi)容理解重點實驗室教授顏永紅。

再之后,張晴晴成為實驗室中最年輕的副高,并且獲得了2014年度中科院杰出科技成就獎,又在法國國家實驗室擔(dān)任語音信號處理博士后。總之,她就是那種“別人家的孩子”。

自此在這二十年間,這位女博士長期專注在同一件事:如何更好地構(gòu)建模型,讓機器更好地理解人話。直到,她發(fā)現(xiàn)了一個致命性問題。

讀博期間,張晴晴的論文研究的是“中國人說英語”,為此她要拿到200個真人的語音,只為讓機器理解中國人說英語的特點。結(jié)果,這期間她大量的精力都花在了找人說英語上,甚至走在街上,也會下意識向路人問一句:“您能幫我錄句話嗎?”而最終,機器僅花費了1天就給出了第一個實驗結(jié)果,可她卻足足花了300天用來收集人聲。

張晴晴不禁感慨,人們普遍認(rèn)為,AI科學(xué)家每天的工作是構(gòu)建高大上的模型,但其實絕大多數(shù)時間都用在了數(shù)據(jù)上,他們也想用好的數(shù)據(jù)幫助建模,但結(jié)果卻是像圍城一樣——這是很多AI科學(xué)家共同的難題。

那么,有沒有可能創(chuàng)造一個龐大的數(shù)據(jù)集,讓所有的AI科學(xué)家和公司都能夠用來訓(xùn)練模型呢?這一疑問浮現(xiàn)在張晴晴的腦中。

直到2016年,人工智能迎來了再次爆發(fā),張晴晴觀察到一些互聯(lián)網(wǎng)巨頭對于數(shù)據(jù)的需求越來越旺盛,于是從中科院離職,正式在北京創(chuàng)辦Magic Data。

如果要用一句話概述公司業(yè)務(wù)。張晴晴介紹,Magic Data的定位是一家多模態(tài)的人工智能數(shù)據(jù)解決方案公司,做的是多模態(tài)數(shù)據(jù),提供的是數(shù)據(jù)的解決方案。七年來,Magic Data積累了超過60種語言、超過15萬小時的對話式AI訓(xùn)練數(shù)據(jù)集,覆蓋智慧金融、智慧出行、智能社交、智能家居和智能終端等五大行業(yè)。

回想一路走來,讓張晴晴印象深刻的故事有很多,但最讓她觸動的一件事,是來自于團(tuán)隊。

2017年,公司成立還不足一年,為了節(jié)約成本,張晴晴只能把公司租在北京海淀區(qū)的一座商住兩用樓里。在那段時間,北京的幾場大火波及了消防隱患小區(qū),都需要被清查整治。

一個周日下午,消防員篩查到了這座大樓,告知大樓的消防不合規(guī),必須立刻撤走。這意味著,張晴晴需要在幾個小時內(nèi)轉(zhuǎn)移幾十位員工的辦公物品,怎么搬?搬去哪?面對突如其來的狀況,她一時不知所措:“我當(dāng)時很尷尬,也不知道怎么跟員工開口,覺得自己好像挺不靠譜的。”

但她很快晃過神來:得馬上告訴大家,集結(jié)團(tuán)隊的力量。而讓滿心愧疚的張晴晴欣慰的是,員工沒有一位抱怨,一晚上搞定了搬遷。第二天一早,所有人準(zhǔn)時出現(xiàn)在新辦公室里,開始了新一天的辦公。

而在那個兵荒馬亂的時刻,公司還正在忙著A輪融資,也正因為整個團(tuán)隊的凝聚力,Magic Data在那一周里成功拿到了A輪。

自那以后,張晴晴悟出一個道理:“創(chuàng)業(yè)是在和平年代里對人最有挑戰(zhàn)的一種生活方式,在創(chuàng)業(yè)過程中感受到的喜怒哀樂是幾輩子的喜怒哀樂,但反過來對于人的自我迭代也是極快的。創(chuàng)業(yè)是個非常有趣的過程。”

“女博士”張晴晴的硬核AI創(chuàng)業(yè)經(jīng):做數(shù)據(jù)難于做芯片

ChatGPT好比數(shù)據(jù)工廠,但是做數(shù)據(jù)難于做芯片

科技行者:ChatGPT與人交互起來對答如流,感覺它的大腦在飛速運轉(zhuǎn),背后肯定是有海量數(shù)據(jù)在支撐吧?

張晴晴:沒錯,數(shù)據(jù)對ChatGPT的作用實在是太大了。ChatGPT起初的數(shù)據(jù)量很多,幾乎都是來自于網(wǎng)絡(luò)用戶的原生數(shù)據(jù),但這些數(shù)據(jù)不能直接用,要經(jīng)過分類清洗。

反過來說,你的處理速度、精度、效率都會直接影響到ChatGPT本身的質(zhì)量,所以本質(zhì)上它是一個工業(yè)級的生產(chǎn)過程,是個極具挑戰(zhàn)的過程。

挑戰(zhàn)有兩點。首先,你需要把很多人組織起來,在一個生產(chǎn)系統(tǒng)里完成事情。其次,如果我們已經(jīng)構(gòu)建了一個基礎(chǔ)的ChatGPT,剩下的就要開始做一個圍繞ChatGPT而生成的垂直領(lǐng)域模型,這里產(chǎn)生一個問題,這種垂直數(shù)據(jù)怎么獲取?

垂類數(shù)據(jù)的獲取通常都非常難,特別是醫(yī)療、金融等數(shù)據(jù),網(wǎng)上沒有現(xiàn)成的。所以這就衍生了另外一個熱門技術(shù),叫AIGC(人工智能自動生成內(nèi)容),它為什么同步火了,就是因為現(xiàn)實生活中的數(shù)據(jù)獲取太困難了,就想著用AI去生成類似的數(shù)據(jù)去用于訓(xùn)練。

AIGC其實也叫做合成數(shù)據(jù),合成數(shù)據(jù)中間有一個非常重要的分支,叫做simulation data(模擬數(shù)據(jù)),對于企業(yè)來講,模擬數(shù)據(jù)可以很好地實現(xiàn)數(shù)據(jù)場景擬合、快速交付的需求,同時數(shù)據(jù)的合規(guī)性也能得到保證。

6年前, Magic Data開始做模擬數(shù)據(jù),實話講這在整個人工智能的數(shù)據(jù)領(lǐng)域,前瞻性是走得比較靠前的。

我們做的模擬數(shù)據(jù),叫做off the shelf data(自有數(shù)據(jù)),通過模擬出各種場景,比如通話場景、車載場景、家居場景等,對模擬場景中的數(shù)據(jù)進(jìn)行采集和標(biāo)注,打包成分行業(yè)、分領(lǐng)域的垂類數(shù)據(jù)。這些數(shù)據(jù)可以快速交付企業(yè)和科研院所,助力AI研發(fā)。

科技行者:那么做模擬數(shù)據(jù)的難點是什么?

張晴晴:做數(shù)據(jù)要求很專業(yè),我曾經(jīng)跟同事講,做數(shù)據(jù)的專業(yè)度有點像是做芯片,都是一個long term(長周期)的事情。但現(xiàn)在我越來越覺得,做數(shù)據(jù)的難度甚至高于歷史上生產(chǎn)芯片的過程,因為芯片是可以被結(jié)構(gòu)化的。

但是數(shù)據(jù)的差異化太大了,不同的行業(yè)、場景、甚至是不同的形態(tài)數(shù)據(jù),里面的參數(shù)和差異度都是極大的,同時,數(shù)據(jù)要用于人工智能建模,機器在建模的過程中如何消化吸收這些數(shù)據(jù),也是難點。

對于我們“數(shù)據(jù)人”來講,一定要先理解,才能生產(chǎn)出好的數(shù)據(jù),所以雖然看上去我是一直在做數(shù)據(jù),但是我每做一個數(shù)據(jù),都要換位思考,思考數(shù)據(jù)在使用過程中會發(fā)生什么,這里就有大量專業(yè)的“know how”在里面。

第一點就是專業(yè)度。數(shù)據(jù)越做到后面,意味著我們要去處理數(shù)據(jù)的精度和復(fù)雜度就越高,需要的專業(yè)人士在里扎根的時間就越長。所以客觀上,我也不認(rèn)為任何一家數(shù)據(jù)公司可以把所有的數(shù)據(jù)都做了,每家公司可以生根在擅長的某個方向,做深做透就很了不起了。

第二點就是規(guī)?;?。數(shù)據(jù)不可能永遠(yuǎn)留在實驗室里,未來都還是要面臨工業(yè)級生產(chǎn)的問題。就像做芯片,做3納米的一顆芯片不難,難的是批量生產(chǎn)出一堆3納米芯片,可能也就那么幾家公司能搞出來。

數(shù)據(jù)也一樣,需要系統(tǒng)和人一起耦合去不斷迭代,機器在這個過程中處理哪些環(huán)節(jié),如果機器出現(xiàn)異常,人應(yīng)該給予什么information,讓機器再去回饋。整套流程是一個不斷打磨的過程,也是一個不斷求最優(yōu)解的過程,但是你又永恒在求最優(yōu)解,所以做數(shù)據(jù)是一個long term(長周期),需要你be patient(有耐心),需要你keep going(堅持不懈)。總之這對做數(shù)據(jù)的企業(yè)也是綜合性考量,要持續(xù)投入研發(fā),不斷迭代,不斷筑高壁壘,最后沉淀下來,才能越來越好。

真正理解數(shù)據(jù)的人,就一小撮人,他們很痛苦

科技行者:Magic Data成長一年后,就有了千萬級的收入。很多創(chuàng)業(yè)公司技術(shù)雖好,難的是獲得收入。你們是如何破冰的?

張晴晴:虛頭巴腦的我就不講了,客觀說,任何一家企業(yè)剛起步,要想運轉(zhuǎn)起來,一定靠的是信任度,它決定了客戶是否信任你,愿意跟你合作。同時要有交付質(zhì)量,這是后續(xù)合作的基礎(chǔ)。

我們公司發(fā)展6年間,一些主要客戶的復(fù)購幾乎沒有斷過,這反過來也證明我們是一家非常踏實的企業(yè),從創(chuàng)立第一天起,我們的核心訴求就是,希望從根本上改變數(shù)據(jù)的生產(chǎn)力。

只要是能在生產(chǎn)力上面有幫助到數(shù)據(jù)的生產(chǎn)的,不管是從機器的研發(fā)效率、營銷、供應(yīng)鏈任何環(huán)節(jié),只要能優(yōu)化的,就應(yīng)該不遺余力去做,對于整個AI的賽道來講,降本增效一定能推動發(fā)展。

科技行者:咱們第一個客戶是誰?

張晴晴:我有點不記得了,但應(yīng)該是中國企業(yè),雖然我們的客戶全球都有,但最初做人工智能的基本都是現(xiàn)在的大廠。

科技行者:大概在兩年前,你們公司做了很多開源項目,還有一個開源社區(qū),感覺也是在給數(shù)據(jù)的生產(chǎn)力蓄力。

張晴晴:真正理解數(shù)據(jù)價值的人,有時候就像圍城一樣,在那一小撮人里面,他們也很痛苦,很想用好的數(shù)據(jù)幫助到自己的建模,但是他們又很難鑒別,到底什么是好數(shù)據(jù)。

我們做了很多好數(shù)據(jù),凝結(jié)了專家團(tuán)隊的know-how,我希望告訴大家,至少在人機交互的數(shù)據(jù)領(lǐng)域,Magic Data是專業(yè)的,我們把一些典型的數(shù)據(jù)開源,也是希望跟其他企業(yè)創(chuàng)造更多價值。

科技行者:有什么細(xì)節(jié)可以證明,咱們的數(shù)據(jù)就是好數(shù)據(jù)嗎?

張晴晴:“好”可以理解成相對概念。

比如在人機交互場景里,終極形態(tài)是完全自然的交流,就像人和人對話一樣,是非常放松、想到哪說到哪的狀態(tài)。所以機器的訓(xùn)練目標(biāo)一定是越逼近于人類越好,我們公司長期一直在用“人類對話數(shù)據(jù)”去訓(xùn)練機器。

但是哪怕在兩年前,大家都還沒有意識到這個問題,導(dǎo)致過去我們跟機器交流時,會覺得死板又生硬,因為傳統(tǒng)的數(shù)據(jù)用的是書面用語,訓(xùn)練出來的機器當(dāng)然死板,直到現(xiàn)在,大家才意識到了問題所在。

科技行者:就好比學(xué)書本英語很多年卻無法跟外國人交流一樣。說到對話式數(shù)據(jù),又要提到ChatGPT了,Magic Data能為這類大模型做什么?

張晴晴:兩個方面。一是基礎(chǔ)的「大模型」,對數(shù)據(jù)的清洗和分類是ChatGPT需要的,這部分我們有高效的數(shù)據(jù)生產(chǎn)工具,叫做Annotator智能化標(biāo)注平臺,它凝結(jié)了我們過去十幾年做數(shù)據(jù)和人工智能的經(jīng)驗,如果用這套系統(tǒng)去處理數(shù)據(jù),可以降本增效。

二是基于大模型做「垂類模型」。這個過程就一定會涉及到模擬數(shù)據(jù),我們會專門設(shè)定很多指標(biāo),在這些指標(biāo)下面去采集相應(yīng)的數(shù)據(jù),并且做后期打標(biāo)簽的動作,如果企業(yè)直接用我們的模擬數(shù)據(jù),去解決某些應(yīng)用場景,也可以降本增效。

科技行者:前面還提到了,傳統(tǒng)訓(xùn)練的數(shù)據(jù)是非常機械式的,而咱們用的都是人性化數(shù)據(jù),那么咱們的數(shù)據(jù)獲取方法是怎樣的?

張晴晴:過去,互聯(lián)網(wǎng)公司有很多用戶,它會基于這些數(shù)據(jù)去使用,當(dāng)然這存在隱私問題。

我們的方式是去中心化,反其道而行之,我們不是去拿用戶的數(shù)據(jù),而是有一個眾包的工作平臺,大家到我的平臺來,貢獻(xiàn)他個人的一些數(shù)據(jù),然后再獲取相應(yīng)的報酬。比如請一個人來給我做一段表演,或者請他來念一段古詩小說,這種情況下,他產(chǎn)生的數(shù)據(jù)有價值,他也會拿到相應(yīng)的報酬,這恰好是一種去中心化的狀態(tài)。

科技行者:無論是ChatGPT也好,還是AIGC也好,都是圍繞AI來談的,那么你怎么理解未來 AI與人類社會發(fā)展的關(guān)系?

張晴晴:要從階段性來看。在未來幾十年的周期里,人工智能會很大程度上幫助人類的工作生活,比如當(dāng)老人或小孩摔倒了,智能監(jiān)控會預(yù)警,這些機器肯定是有利于社會安全穩(wěn)定發(fā)展的;而從更長期的角度來看,當(dāng)人工智能越變越好,智能系統(tǒng)越來越多,大家會思考人類會不會部分被取代?我覺得不是沒有可能,我們總說奇點,可能一旦突破奇點,變化一觸即發(fā)。

躺平or卷?我更追求“被需要的價值”

科技行者:創(chuàng)業(yè)維艱都說爛了,你每天思考最多的問題是什么?

張晴晴:思考的問題也跟不同時期有關(guān)。早期總在想,怎么把一件事情去落地做好。

創(chuàng)業(yè)到第三年,考慮戰(zhàn)略、定位、擅長做的事。

到第四五年,也就是從去年開始,除了以上這些東西,我更多的開始關(guān)注組織的問題,一個企業(yè)的成功必定是一個組織形態(tài)的成功。

科技行者:“創(chuàng)業(yè)是在和平年代里對人最有挑戰(zhàn)的一種生活方式”,你這話說的很好,不過既然是和平年代,有人可能就一直想躺平,為什么你要這么卷?

張晴晴:躺平和卷,其實是個哲學(xué)話題,我時不時也會想一些哲學(xué)問題,比如每個人在社會上追求的到底是什么?

我也跟公司的小伙伴講,大家為什么要去做這些事,說到底是為了兩件事。眼巴前的是為了收益(錢),這個大家都會考慮,但是如果一個人只考慮錢和收益,除非這個人真的是立刻要餓死,否則是不可信的,那就意味著你的精神世界已經(jīng)整個崩塌了。

所以除了錢之外,每個人一定會追尋一種“被需要的價值”,當(dāng)一個人被需要,他會迸發(fā)出一種極大的發(fā)自內(nèi)心的力量,這種力量會讓這個人覺得非常幸福,這也是所謂的“情緒價值”。

上面說的兩個追求,在每個人那兒的占比有所不同,而于我而言,我更需要“社會價值”。

最理想的狀態(tài)是,你對自己的評價和社會對你的評價是幾乎對等的,其實兩者一旦發(fā)生誰高誰低,你都會覺得,要么別人虧欠你,要么你好像占了別人便宜,就是這種狀態(tài)。

科技行者:對,說回到躺平和卷的兩個維度,我們或許不用去界定到底是要“躺平”還是要“卷”,可能卷累了就躺,躺累了再卷,大家其實不用只選擇一種狀態(tài)。

沿著這個話題,我們再來做一個預(yù)測。如果3~5年后,公司還能達(dá)到一個什么樣的高度,你會比較滿意?

張晴晴:可能兩三年前,你問我這個問題,我會習(xí)慣性回答一句:如果企業(yè)可以上市,我應(yīng)該很滿意。

但是現(xiàn)在看來,要達(dá)到滿意的目標(biāo)有兩者。第一者是,客戶們覺得Magic Data這家公司能夠給它們帶去價值,這對于人工智能數(shù)據(jù)的生產(chǎn)力也會帶去更好的推動。

第二者是,Magic Data公司里共事的小伙伴們可以因為這家企業(yè)而生活得更體面,并且他們的社會價值感會更高。

如果這兩件事情同時滿足,我就覺得這家企業(yè)讓我很滿意。

科技行者:這么看來,感覺你是一個很有奉獻(xiàn)精神的人,因為你個人的成就感來自于給他人帶去的價值感。

張晴晴:這么說是合理的,因為創(chuàng)始人其實是公司集體的化身,關(guān)鍵是自己內(nèi)部的一個邏輯自洽和對于外界來講是一個價值呈現(xiàn)。

科技行者:那么做成一家創(chuàng)業(yè)公司,要具備哪些重要的品質(zhì)?

張晴晴:最重要的就兩點,學(xué)習(xí)力和復(fù)盤力,這是對于創(chuàng)始人和創(chuàng)始團(tuán)隊都特別重要的能力。然后第三點不是我們可以完全掌控的,就是“看天吃飯”。

復(fù)盤能力對于很多人都是極大沖突的,首先你得先否定自己,然后再去調(diào)整成一個好狀態(tài),自己否定自己可能絕大多數(shù)人就做不到。但如果能做到的話,不管是創(chuàng)業(yè)者,還是非創(chuàng)業(yè)者,他的上升速度都會非常快的。

科技行者:總結(jié)而言是,不斷學(xué)習(xí)讓人進(jìn)步,不斷復(fù)盤讓人自省,其他的交給時運。

張晴晴:對。

科技行者:在人工智能領(lǐng)域,有很多女性科學(xué)家和企業(yè)家,那么如果有女性學(xué)子也想投身于這個領(lǐng)域,你有什么建議?

張晴晴:我覺得無論是女性還是男性,都存在一個突破自己的艱巨過程。

女性早期可能會不自信,比如自己認(rèn)為是這樣的,還會習(xí)慣性去問別人“是這樣嗎”。另外女性存在一些天然色彩,比如習(xí)慣減少沖突、或是要讓周圍人感覺舒適等,這里有好的方面,就看怎么去用它。在創(chuàng)業(yè)這件事上,有時候反倒需要“獨裁”,獨裁這個詞不好聽,但也代表著對于自己所要干的事情更加篤定。你敢于去做決策,并且堅定不移朝著這個方向走下去。

男性要突破的,就是承認(rèn)自己曾經(jīng)錯過而重新再來的過程。所以,創(chuàng)業(yè)對男性女性都不容易,不過新時代有個詞叫做“女性經(jīng)濟(jì)”,對于女性創(chuàng)業(yè)或女性出現(xiàn)在商界,大家的包容度好像真的變高很多了。

分享至
2贊

好文章,需要你的鼓勵

周雅

Miranda
關(guān)注科技創(chuàng)新、技術(shù)投資。以文會友,左手硬核科技,右手浪漫主義。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-