在新冠肺炎流行期間,很多數(shù)據(jù)科學(xué)家和商業(yè)分析從業(yè)者們都被拉進(jìn)了流行病學(xué)的領(lǐng)域——當(dāng)然,他們大都很樂(lè)意這樣做。擁有數(shù)據(jù)科學(xué)團(tuán)隊(duì)的大企業(yè),希望盡可能地了解這種流行疾病在他們開展業(yè)務(wù)的地區(qū)可能出現(xiàn)的感染情況。有一些組織內(nèi)部原本就擁有一些流行病學(xué)家或者醫(yī)務(wù)人員,但是他們不見得擁有足夠多的分析人才對(duì)病毒的流行和病例增長(zhǎng)方面的數(shù)據(jù)進(jìn)行量化分析。
這些數(shù)據(jù)科學(xué)家們努力的主要方向是報(bào)告或者預(yù)測(cè)新冠肺炎引起的病例和/或死亡。盡管有很多網(wǎng)站都提供了關(guān)于這種疾病流行情況的基本描述性分析,但是絕大多數(shù)的網(wǎng)站都沒(méi)有提供對(duì)未來(lái)感染病例和死亡數(shù)量的預(yù)測(cè),這些網(wǎng)站提供的數(shù)據(jù)的精細(xì)度也不足以供企業(yè)使用。很多公司由于自身所處的行業(yè)特點(diǎn)及商業(yè)模式,都有充足的理由要進(jìn)行這項(xiàng)工作,弄清楚這場(chǎng)疫情對(duì)他們的業(yè)務(wù)、客戶以及員工的影響。
因?yàn)閿?shù)據(jù)科學(xué)的每一個(gè)特定的用例都取決于環(huán)境,所以我會(huì)在介紹每個(gè)用例的時(shí)候也介紹應(yīng)用這個(gè)用例的公司的情況。一些公司和他們的代表希望保持匿名,但是他們確認(rèn)了項(xiàng)目的詳細(xì)情況。
一家人壽保險(xiǎn)公司預(yù)測(cè)死亡人數(shù)
一家大型人壽保險(xiǎn)公司的分析和數(shù)據(jù)科學(xué)團(tuán)隊(duì)于2020年3月份啟動(dòng)了一個(gè)項(xiàng)目,該項(xiàng)目的目標(biāo)是預(yù)測(cè)新冠肺炎疫情造成的死亡情況。人壽保險(xiǎn)公司需要了解任何導(dǎo)致意外死亡人數(shù)大量增加的大流行病,并對(duì)其可能的發(fā)展?fàn)顩r進(jìn)行預(yù)測(cè)。當(dāng)然,該公司對(duì)于其代理機(jī)構(gòu)和辦公室的員工何時(shí)能夠安全返回辦公室上班,以及能有多少人能夠返回崗位這個(gè)問(wèn)題也非常感興趣。
他們的模型表明,新冠肺炎疫情造成的死亡人數(shù)將比大多數(shù)人估計(jì)的數(shù)量更高,這部分取決于控制病毒傳播的措施。這些模型不僅依賴于已報(bào)告的死亡病例進(jìn)行外推,還對(duì)“超額死亡”進(jìn)行了分析,所謂的“超額死亡”指的是那些由于新冠肺炎造成但卻不會(huì)被官方統(tǒng)計(jì)計(jì)入疫情死亡人數(shù)的死亡病例。這些數(shù)據(jù)科學(xué)家們多次調(diào)整過(guò)他們的模型,以覆蓋美國(guó)全境范圍內(nèi)的新數(shù)據(jù)和新的防疫政策。該模型匯總了州一級(jí)的預(yù)測(cè)數(shù)據(jù),并且考慮了每個(gè)州計(jì)數(shù)缺漏以及政策收緊和開放水平的影響。然后,該公司將所有的州分成四個(gè)標(biāo)準(zhǔn)化的開放階段。標(biāo)準(zhǔn)化階段的分類包含諸如學(xué)校是否開學(xué)/停課、非必要商業(yè)以及其他設(shè)施和機(jī)構(gòu)是否開放等標(biāo)準(zhǔn)。
為了評(píng)估疫情對(duì)分支機(jī)構(gòu)以及其辦公室的影響,數(shù)據(jù)科學(xué)家們還依據(jù)縣級(jí)的數(shù)據(jù)進(jìn)行了更為精細(xì)的預(yù)測(cè)。分析團(tuán)隊(duì)沒(méi)有預(yù)測(cè)新冠肺炎感染病例的數(shù)量——部分原因是因?yàn)楦腥静±龜?shù)對(duì)該公司的業(yè)務(wù)影響較小,更主要的原因是因?yàn)槟軌颢@得的關(guān)于美國(guó)病例數(shù)量的數(shù)據(jù)可靠性較差。該公司內(nèi)部所有的高管和部門對(duì)于該團(tuán)隊(duì)的分析結(jié)果都非常感興趣。
一家物流公司預(yù)測(cè)疫情對(duì)人員配備的影響
一家物流公司的健康與安全負(fù)責(zé)人正在思考如何用數(shù)據(jù)幫助這家公司更好地適應(yīng)疫情。由于他的工作職責(zé)包含了病假計(jì)劃,他對(duì)于預(yù)測(cè)員工因?yàn)楦腥拘鹿诜窝渍?qǐng)病假的情況以及這些情況會(huì)對(duì)該公司運(yùn)營(yíng)造成何種影響非常感興趣。他要求他的分析團(tuán)隊(duì)創(chuàng)建了一個(gè)新冠疫情對(duì)公司影響的面板。其中一個(gè)關(guān)鍵的項(xiàng)目就是預(yù)測(cè)因?yàn)楦腥拘鹿诜窝自斐傻牟〖偾闆r。
這位健康與安全負(fù)責(zé)人表示,該面板非常受歡迎,公司各個(gè)部門的請(qǐng)求紛至沓來(lái)。但總的來(lái)說(shuō),他指出,相比于對(duì)于未來(lái)可能發(fā)生狀況的預(yù)測(cè),管理人員們還是對(duì)于已經(jīng)發(fā)生情況的描述性數(shù)據(jù)更加感興趣。
一家動(dòng)物保健公司預(yù)測(cè)對(duì)肉類加工廠的影響
First Analytics是一家分析和數(shù)據(jù)科學(xué)服務(wù)公司(我是這家公司的聯(lián)合創(chuàng)始人兼非執(zhí)行董事長(zhǎng)),它為大型公司提供分析服務(wù)。新冠肺炎疫情流行期間,負(fù)責(zé)領(lǐng)導(dǎo)公司的Mike Thompson和Rob Stevens認(rèn)為他們的某些客戶可能會(huì)對(duì)美國(guó)新冠肺炎疫情流行情況的預(yù)測(cè)分析感興趣,他們知道,有一些來(lái)源可以提供美國(guó)縣級(jí)的病例和死亡數(shù)據(jù),但是這些數(shù)據(jù)沒(méi)有一個(gè)是可預(yù)測(cè)的——至少在當(dāng)時(shí)是這樣。所以First Analytics的團(tuán)隊(duì)創(chuàng)建了一個(gè)預(yù)測(cè)模型,該模型采用了《紐約時(shí)報(bào)》匯總的縣級(jí)數(shù)據(jù),并據(jù)此預(yù)測(cè)幾周后可能發(fā)生的病例和死亡率。該模型考慮了州或者縣的封鎖狀態(tài)以及該地區(qū)陽(yáng)性測(cè)試結(jié)果的百分比。當(dāng)然,該模型會(huì)受到監(jiān)獄或者療養(yǎng)院等疫情局部爆發(fā)的困擾。
First Analytics之前曾經(jīng)為一家領(lǐng)先的動(dòng)物保健公司Elanco提供過(guò)分析咨詢服務(wù),因此他們就與這家公司聯(lián)系,詢問(wèn)對(duì)方是否有興趣使用對(duì)新冠肺炎疫情發(fā)展?fàn)顩r的預(yù)測(cè)服務(wù)。該公司分析和其他基于知識(shí)的解決方案負(fù)責(zé)人Michael Genho表示,他有興趣聊聊這個(gè)想法。不過(guò)他的興趣主要并不是在Elanco公司內(nèi)部使用,而是針對(duì)該公司那些擁有大量牲畜的客戶。新冠肺炎疫情對(duì)于肉類加工廠的影響特別巨大,全美的肉類加工廠里已經(jīng)出現(xiàn)了40,000例新冠肺炎病例,造成這種情況的部分原因是因?yàn)樵谶@些地方社交距離非常小。如果一家加工廠關(guān)閉或者降低其生產(chǎn)能力,需要屠宰牲畜的畜牧主們就會(huì)無(wú)處可去。在正常情況下,他們會(huì)仔細(xì)計(jì)劃,將體重處于最合適區(qū)間的牲畜送進(jìn)加工廠進(jìn)行屠宰。
Elanco公司自己確實(shí)擁有流行病學(xué)家,但是這些流行病學(xué)家都是專注于動(dòng)物的。該分析小組通常同商業(yè)領(lǐng)袖們合作,用數(shù)據(jù)和分析幫助他們做出商業(yè)決策。該預(yù)測(cè)模型可以準(zhǔn)確預(yù)測(cè)出即將因?yàn)樾鹿诜窝滓咔楸l(fā)面臨挑戰(zhàn)的肉類加工廠。它將這些加工廠分為綠色、黃色和紅色三個(gè)類別。最好的預(yù)測(cè)能夠提前一兩個(gè)星期預(yù)測(cè)到工廠關(guān)閉或減產(chǎn)。
這些客戶原本只能憑借直覺做出決定,現(xiàn)在他們對(duì)預(yù)測(cè)非常重視,并且要求在每周預(yù)測(cè)更新之后同Elanco聯(lián)系。Genho的分析小組還會(huì)在預(yù)測(cè)結(jié)果中補(bǔ)充肉類加工廠每周的生產(chǎn)數(shù)據(jù)以及新出現(xiàn)的工廠關(guān)閉、減產(chǎn)以及工廠內(nèi)出現(xiàn)的新冠肺炎疫情狀況。客戶可以選擇將牲畜轉(zhuǎn)移到其他的設(shè)施或者改變牲畜上市的時(shí)間窗口。這些客戶沒(méi)有以交互的方式使用面板,但是他們很高興能夠通過(guò)Elanco獲得預(yù)測(cè)的結(jié)果。
一家消費(fèi)品公司預(yù)測(cè)現(xiàn)場(chǎng)銷售安全性
一家通過(guò)雜貨店零售商進(jìn)行銷售的消費(fèi)品公司擔(dān)心其在新冠肺炎疫情肆虐地區(qū)的商店中的現(xiàn)場(chǎng)銷售人員的健康和安全。他們已經(jīng)于三月份的時(shí)候從商店里撤出了自己的人手,但是該公司想要弄清楚他們何時(shí)才能安全地返回現(xiàn)場(chǎng)。該公司的分析團(tuán)隊(duì)從First Analytics的Rob Stevens那里聽說(shuō)了縣級(jí)預(yù)測(cè)模型,并將其用于分析各個(gè)商店的情況。分析團(tuán)隊(duì)的一位成員將新冠肺炎追蹤器——一個(gè)基于地點(diǎn)的、針對(duì)新冠肺炎病例的內(nèi)部追蹤器安置在公司的工廠和辦公室。另一個(gè)版本的跟蹤器則負(fù)責(zé)評(píng)估商店的安全性;根據(jù)每個(gè)縣新冠肺炎病例的數(shù)量,每位現(xiàn)場(chǎng)銷售代表負(fù)責(zé)的商店都會(huì)被賦予一個(gè)“紅色/黃色/綠色”的標(biāo)簽。
該分析小組為該公司的健康、安全和法律團(tuán)隊(duì)提供分析結(jié)果,后者對(duì)結(jié)果進(jìn)行討論后,決定將哪些信息發(fā)送給員工。他們發(fā)現(xiàn)預(yù)測(cè)模型很有趣也很有用,但是他們并不想將預(yù)測(cè)結(jié)果直接發(fā)送給員工,因?yàn)樗麄冋J(rèn)為這樣做可能會(huì)很難解釋。而且,他們也擔(dān)心給店鋪“綠色”的評(píng)分可能會(huì)讓銷售人員放松警惕,在去那些店鋪的時(shí)候不采取任何防護(hù)措施。
數(shù)據(jù)科學(xué)與流行病學(xué)的平衡
數(shù)據(jù)科學(xué)和分析團(tuán)隊(duì)通過(guò)處理新冠肺炎疫情數(shù)據(jù),扮演了業(yè)余的流行病學(xué)專家的角色。在這個(gè)過(guò)程中,我也學(xué)到了一些教訓(xùn)。首先,企業(yè)中缺乏足夠的流行病學(xué)專家可用,因此數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析專家們可以為決策者們提供有用的信息。他們可能沒(méi)有接受過(guò)流行病學(xué)方面的培訓(xùn),但是數(shù)據(jù)科學(xué)和分析方面的原理可以很容易地應(yīng)用于這個(gè)領(lǐng)域。
但是,考慮到將這些分析結(jié)果應(yīng)用于日常運(yùn)營(yíng)所面臨的各種挑戰(zhàn),企業(yè)可能更愿意為客戶——而不是他們內(nèi)部的員工提供見解。而且,在很多情況下,由于缺乏關(guān)于這種流行病的歷史數(shù)據(jù),在這個(gè)不確定的時(shí)期,對(duì)于決策者們來(lái)說(shuō),預(yù)測(cè)性分析不如描述性分析可靠。而且,盡管他們的技能可以應(yīng)用于流行病學(xué),但是等到新冠肺炎的疫情不再糾纏我們的時(shí)候,數(shù)據(jù)科學(xué)和分析人員們都更愿意回到更加傳統(tǒng)的領(lǐng)域,例如需求預(yù)測(cè)和消費(fèi)者行為分析——我問(wèn)過(guò)的每一個(gè)數(shù)據(jù)科學(xué)和分析人員都是這樣想的。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。