人工智能(AI)已經(jīng)在過去十年左右的時(shí)間里從科幻變成了現(xiàn)實(shí),并且正在顛覆(或可望顛覆)地球上幾乎每個(gè)流程。比如幫助導(dǎo)航我們的汽車、飛機(jī)和太空飛船,可以在Netflix上建議用戶看什么電影,也可以助力顛覆其他數(shù)十種事情,無論是大事情還是普通事情。
在這之中,制藥業(yè)可以說是個(gè)真正的生死攸關(guān)產(chǎn)業(yè)。而且,制藥業(yè)也在使用計(jì)算機(jī)和計(jì)算機(jī)工具(例如AI),但為什么AI在制藥業(yè)里幾乎就沒有顛覆的影子呢?有些專家認(rèn)為,制藥行業(yè)仍然是效率最低的行業(yè)之一,亦是抵制技術(shù)顛覆的最后橋頭堡。此外,專家們還表示,自上世紀(jì)50年代以來,盡管其他行業(yè)的生產(chǎn)力和效率都在不斷提高,但制藥業(yè)的效率卻一直在下降。
舉個(gè)例子,現(xiàn)在要將一種藥物或新分子實(shí)體(NME)推向市場的成本超過26億美元。這種費(fèi)用(甚至包括失敗藥物嘗試的費(fèi)用)最終都會直接轉(zhuǎn)移給包括你我在內(nèi)的患者、客戶和納稅人。
因此,筆者希望在本篇文章里相對客觀地討論一下傳統(tǒng)藥物發(fā)現(xiàn)的挑戰(zhàn)性,包括目前AI在藥物發(fā)現(xiàn)的方法以及該領(lǐng)域里新技術(shù)和新工藝革新的潛力。
賭一把:傳統(tǒng)藥物發(fā)現(xiàn)
要了解AI在小分子藥物發(fā)現(xiàn)中的潛力和局限性,就要先了解制藥公司傳統(tǒng)上如何完成藥物發(fā)現(xiàn)的流程,這一點(diǎn)很重要。
前面提到過,制藥業(yè)是地球上風(fēng)險(xiǎn)最高的企業(yè)之一。小分子藥物發(fā)現(xiàn)流程包括幾個(gè)步驟:科學(xué)家提出疾病假說、確定目標(biāo)、設(shè)計(jì)分子然后進(jìn)行臨床前研究,平均需要的時(shí)間為5年,可能的花費(fèi)為數(shù)億美元。臨床開發(fā)過程可能還需要五年及外加數(shù)億美元。干預(yù)措施則是在此過程的第一階段(安全性)、第二階段(有效性)及第三階段(大規(guī)模安全性和有效性)里進(jìn)行測試。
▲藥物發(fā)現(xiàn)和開發(fā)的各個(gè)階段:基于2010年P(guān)aul及其他人的“如何提高研發(fā)生產(chǎn)率:制藥行業(yè)的重大挑戰(zhàn)”文章整理(圖:Alex Zhavoronkov,Insilico Medicine)
所以說,藥物的發(fā)現(xiàn)類似于一個(gè)分子賭桌。在這個(gè)賭桌的輪盤上有超過2000種藥物治療目標(biāo)及數(shù)千種疾病,而且每個(gè)患者在某種程度上都不盡相同。要在這么復(fù)雜的設(shè)置下為特定的患者小眾群體選擇正確靶標(biāo),幾率小得荒唐。大家都知道在輪盤上下注極少會有豐厚的回報(bào)以及玩家必須在失敗時(shí)淡定,其原因就在此。
盡管制藥業(yè)是賭桌上的輪盤,但世界上最聰明的人卻都在這個(gè)輪盤上下注,99%的概率,這些人都會輸。而且每賭一把的時(shí)間為八年或更長,頭四年里可以改賭注,從第二個(gè)四年臨床試驗(yàn)開始,輪盤開始轉(zhuǎn)動,這時(shí)就只能減少損失或是在其他臨床計(jì)劃上下更多的賭注。通常,那些在頭四年里下注的人不會是在臨床階段決定減賭注或加倍下注的人。
AI幫襯、AI盼頭還是AI噱頭?
面對荒唐的幾率而且是身處數(shù)據(jù)密集型環(huán)境,可能有人會覺得人工智能非常適合制藥公司。而現(xiàn)實(shí)是,盡管現(xiàn)代技術(shù)進(jìn)步在很多方面出現(xiàn)了重大顛覆,包括移動通訊和個(gè)人計(jì)算、互聯(lián)網(wǎng)以及基因組測序等等,但開發(fā)藥物的成本卻還在不斷增加。
實(shí)際上,利用AI提高幾率的想法其實(shí)對于制藥行業(yè)而言是利弊并存的。一方面,這可以為制藥領(lǐng)域帶來更多的投資和更多的人才。但另一方面炒作得厲害的同時(shí)藥品價(jià)格仍在飛漲,這也導(dǎo)致了一些人更加持懷疑態(tài)度。制藥業(yè)資深人士看到有希望的技術(shù)突破的出現(xiàn),但卻并未顯著提高研發(fā)水平,因此,他們寧愿選擇在藥物發(fā)現(xiàn)過程的整個(gè)范圍內(nèi)逐步開發(fā)內(nèi)部能力,而不是將籌碼押在注特定的使能技術(shù)上。
現(xiàn)如今,“AI盼頭”和“AI噱頭”仍在角力。一方面,AI專家預(yù)測變革在即,而另一方面,持懷疑態(tài)度的藥物研發(fā)專家卻認(rèn)為所有的最新進(jìn)展只不過是增量式變化和噱頭而已。
也是出于同樣的原因,大多數(shù)行業(yè)專家對深度學(xué)習(xí)的前景也持懷疑態(tài)度。
利用深度學(xué)習(xí)打破噱頭
我們常常聽到AI是制藥行業(yè)潛在救星的說法,其中有很多原因,比如,基于深度學(xué)習(xí)的模型(例如生成對抗網(wǎng)絡(luò),又名GAN)進(jìn)行藥物研發(fā),這對于制藥行業(yè)將會有極大影響。
在業(yè)界,第一篇有關(guān)“生成對抗網(wǎng)絡(luò)”的論文是Ian Goodfellow在2014年發(fā)表的,如今,他被稱為“GAN之父”。生成對抗網(wǎng)絡(luò)可以視為兩個(gè)深度神經(jīng)網(wǎng)絡(luò)之間的競爭——一個(gè)網(wǎng)絡(luò)是生成器,根據(jù)所需的一組標(biāo)準(zhǔn)創(chuàng)建新穎的內(nèi)容,另一個(gè)網(wǎng)絡(luò)名為鑒別器,用于測試生成器輸出的真假。這項(xiàng)技術(shù)一經(jīng)提出幾乎立馬就推動了一些有趣結(jié)果的獲取。幾個(gè)小組在2016年里利用GAN用自然語言創(chuàng)建了逼真的圖像。例如,GAN可根據(jù)描述“這只小鳥的胸部和冠是粉紅色的,初級飛羽和次級飛羽為黑色”生成或“想象”出具有這種特征的大量鳥類圖像等等。
幾乎在同一時(shí)間里,我們的Insilico團(tuán)隊(duì)開始研究GAN是否可以用于發(fā)現(xiàn)用得上的新型化學(xué)結(jié)構(gòu)或分子。從生成鳥類圖片和DeepFakes走向創(chuàng)建超精密設(shè)計(jì)新的分子,聽起來似乎是沒什么邏輯的一步,但我們?nèi)〉昧讼喈?dāng)大的成功,我們在2016年發(fā)表了一些早期同行評審論文,隨后還發(fā)布了許多生成方法并且還開始將這些方法與深度強(qiáng)化學(xué)習(xí)結(jié)合在一起。
但盡管我們發(fā)表了幾十篇論文,制藥行業(yè)許多計(jì)算化學(xué)家和藥物化學(xué)家卻仍持懷疑態(tài)度。他們的懷疑也并非一無是處。要明確證明這些生成方法可以對制藥業(yè)產(chǎn)生重大影響,唯一的方法就是選一種影響到數(shù)百萬人的疾病,而不僅僅是選罕見疾病,然后利用AI方法完全用“無人干預(yù)”的方式識別該疾病里新的生物靶標(biāo),再以這種方式利用AI及針對AI所選擇的目標(biāo)生成新分子,然后在生物學(xué)分析、動物研究以及希望能在針對人類的研究中驗(yàn)證所生成的分子。
▲ 完整的環(huán):靶標(biāo)識別、小分子生成和驗(yàn)證用于證明AI在藥物發(fā)現(xiàn)中的價(jià)值(圖:Alex Zhavoronkov,Insilico Medicine)
但要這樣做在學(xué)術(shù)界幾乎是不可能的,因?yàn)橘M(fèi)用非常昂貴,而且還需要具備分析開發(fā)和化學(xué)合成在內(nèi)的多種專業(yè)知識,出于同樣的原因,在初創(chuàng)企業(yè)中要這樣做也是很困難的。因此,筆者預(yù)測:我們今年或明年將走到這一步——針對一種主要疾病的絕對新靶標(biāo)、絕對新分子及對應(yīng)該疾病的實(shí)驗(yàn)驗(yàn)證。并且在兩到三年后,看到這些分子出現(xiàn)在第二期臨床研究中。只有到了這個(gè)時(shí)候,懷疑論者才會滿意。但這仍需要幾年的時(shí)間。
AI在制藥業(yè)的未來
總的來說,筆者對AI方法的未來持樂觀態(tài)度,它可以生產(chǎn)為了改善健康和治療疾病所急需的藥物。諸如生成強(qiáng)化學(xué)習(xí)之類的方法組合和整合(以及量子計(jì)算的迷人前景),從而令我們對未來充滿期盼。但我們務(wù)必對面臨的挑戰(zhàn)保持清醒態(tài)度。生物學(xué)很復(fù)雜,化學(xué)也很復(fù)雜,臨床試驗(yàn)同樣很復(fù)雜。要在三個(gè)很復(fù)雜的領(lǐng)域同時(shí)獲得成功是件艱巨的任務(wù)!
▲完全整合的“制藥 AI 大腦”:涵蓋了藥物發(fā)現(xiàn)和開發(fā)的所有領(lǐng)域(圖:Alex Zhavoronkov, Insilico Medicine)
因此,制藥AI成功的關(guān)鍵是要打造一個(gè)可用于識別生物靶標(biāo)的龐大整合系統(tǒng),這樣的系統(tǒng)將有助于設(shè)計(jì)新分子并可以進(jìn)行個(gè)性化治療及預(yù)測臨床試驗(yàn)結(jié)果。
同時(shí),我們還需要一個(gè)龐大的制藥大腦,可以橫跨十年甚至更長的發(fā)現(xiàn)和開發(fā)周期,并可以將臨床數(shù)據(jù)重新整合到目標(biāo)發(fā)現(xiàn)里。
要完成這些任務(wù)可能要花幾年的時(shí)間??茖W(xué)家為了顯著加速開發(fā)小分子藥物發(fā)現(xiàn)的系統(tǒng),就需要結(jié)合許多策略和方法,所以,他們必須是藥物發(fā)現(xiàn)的多領(lǐng)域?qū)<摇?/p>
拿眼下的新冠疫情來說,傳統(tǒng)及AI驅(qū)動方法的其實(shí)作用并不突出。筆者預(yù)計(jì),在四個(gè)月內(nèi),所有FDA批準(zhǔn)的藥物里,大約會有百分之十會被用做診治療法,畢竟新藥物的開發(fā)的還沒有取得可觀的臨床結(jié)果。要顯著加速藥物的開發(fā),科學(xué)家們在AI和實(shí)驗(yàn)室自動化方面還需要做大量的工作。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。