藥物發(fā)現(xiàn)和開(kāi)發(fā)是一項(xiàng)既費(fèi)力又費(fèi)錢且耗時(shí)的復(fù)雜過(guò)程。從靶點(diǎn)識(shí)別到藥物上市,整個(gè)過(guò)程可能長(zhǎng)達(dá)12年,耗資超過(guò)25億美元,但成功率卻不足10%。盡管近年來(lái)技術(shù)取得了顯著進(jìn)步,但藥物開(kāi)發(fā)的成功率依然很低,成本高昂。因此,如何提高藥物研發(fā)效率、降低成本成為業(yè)界亟待解決的問(wèn)題。機(jī)器學(xué)習(xí)(Machine Learning,ML)技術(shù)的發(fā)展,尤其是深度學(xué)習(xí)(Deep Learning,DL)的興起,為藥物研發(fā)提供了新的機(jī)遇。
2024年7月19日,加拿大麥克馬斯特大學(xué)的研究人員在 Nature Chemical Biology 期刊發(fā)表了題為:Machine learning in preclinical drug discovery 的文章,討論了在藥物發(fā)現(xiàn)的臨床前階段整合機(jī)器學(xué)習(xí)方法的現(xiàn)狀和未來(lái)前景,重點(diǎn)關(guān)注其在不同疾病領(lǐng)域的應(yīng)用,以加速初始藥物發(fā)現(xiàn)、作用機(jī)制(MOA)闡明和化學(xué)性質(zhì)優(yōu)化。
新藥研發(fā)涉及多個(gè)復(fù)雜環(huán)節(jié),包括靶點(diǎn)識(shí)別、化合物篩選、活性驗(yàn)證、作用機(jī)制闡明及臨床前和臨床試驗(yàn)等。傳統(tǒng)的藥物篩選方法,如高通量篩選(HTS),盡管可以大規(guī)模測(cè)試化合物庫(kù),但成本高昂且耗時(shí)。此外,從HTS中篩選出的化合物往往需要在后續(xù)階段經(jīng)過(guò)復(fù)雜的驗(yàn)證和優(yōu)化,進(jìn)一步增加了研發(fā)周期和成本。據(jù)統(tǒng)計(jì),從候選藥物進(jìn)入臨床試驗(yàn)到最終上市的成功率僅為10%左右,大部分候選藥物在臨床試驗(yàn)階段因缺乏療效、毒性過(guò)高或不符合市場(chǎng)需求等原因而失敗。
機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),具有從大規(guī)模復(fù)雜數(shù)據(jù)集中自動(dòng)提取特征并進(jìn)行預(yù)測(cè)的能力。隨著生物和化學(xué)數(shù)據(jù)的不斷積累,機(jī)器學(xué)習(xí)技術(shù)在藥物研發(fā)中的應(yīng)用前景日益廣闊。與傳統(tǒng)方法相比,機(jī)器學(xué)習(xí)具有以下優(yōu)勢(shì):
1、高效篩選:基于機(jī)器學(xué)習(xí)的虛擬篩選技術(shù)可以快速評(píng)估大規(guī)?;衔飵?kù),從而顯著提高篩選效率。
2、精準(zhǔn)預(yù)測(cè):通過(guò)訓(xùn)練大量數(shù)據(jù),機(jī)器學(xué)習(xí)模型能夠預(yù)測(cè)化合物的生物活性、毒性、藥代動(dòng)力學(xué)等關(guān)鍵參數(shù),為藥物優(yōu)化提供指導(dǎo)。
3、闡明作用機(jī)制:結(jié)合蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù),機(jī)器學(xué)習(xí)有助于揭示化合物的作用機(jī)制,為基于結(jié)構(gòu)的藥物設(shè)計(jì)提供理論依據(jù)。
機(jī)器學(xué)習(xí)在藥物研發(fā)中的應(yīng)用
在這篇文章中,作者概述了各種機(jī)器學(xué)習(xí)方法在一系列疾病領(lǐng)域的小分子療法臨床前藥物發(fā)現(xiàn)中的應(yīng)用??梢苑譃橐韵氯齻€(gè)藥物發(fā)現(xiàn)步驟:
圖1:機(jī)器學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用
第1步:靶點(diǎn)識(shí)別
在藥物研發(fā)的初期階段,首先需要確定潛在的藥物靶點(diǎn)。機(jī)器學(xué)習(xí)技術(shù)在這一階段的應(yīng)用主要體現(xiàn)在虛擬篩選和分子特征化上。
傳統(tǒng)的HTS方法成本高、耗時(shí)長(zhǎng),且命中率較低。以機(jī)器學(xué)習(xí)為指導(dǎo)的虛擬篩選技術(shù)提供了一種更為高效的替代方案。虛擬篩選通過(guò)構(gòu)建ML模型,對(duì)化合物庫(kù)中的分子進(jìn)行快速評(píng)估,從而篩選出具有潛在生物活性的化合物。例如,深度定量結(jié)構(gòu)-活性關(guān)系模型(DQSAR)利用深度學(xué)習(xí)模型量化結(jié)構(gòu)-活性關(guān)系,改進(jìn)了大型化學(xué)庫(kù)的虛擬篩選效果。
圖2:ML引導(dǎo)的虛擬篩查
分子特征化是虛擬篩選的關(guān)鍵步驟。傳統(tǒng)的分子表征方法,如指紋向量,往往無(wú)法捕捉分子連通性的上下文細(xì)節(jié)。近年來(lái),基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法,如有向信息傳遞神經(jīng)網(wǎng)絡(luò)(D-MPNN),通過(guò)結(jié)合任務(wù)和上下文感知分子嵌入,顯著提高了分子特征化的準(zhǔn)確性。這些模型在抗菌藥物的發(fā)現(xiàn)中取得了顯著成果,如鹵化霉素和阿巴霉素的發(fā)現(xiàn)。
第2步:MOA闡明
在確定了潛在藥物后,需要詳細(xì)闡明其作用機(jī)制(MOA)。MOA闡明涉及復(fù)雜的生物實(shí)驗(yàn)和數(shù)據(jù)分析,機(jī)器學(xué)習(xí)技術(shù)在這一階段同樣發(fā)揮著重要作用。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是MOA闡明的基礎(chǔ)。近年來(lái),基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法取得了突破性進(jìn)展。例如,AlphaFold(AF2)通過(guò)多序列比對(duì)(MSA)和深度學(xué)習(xí)技術(shù),成功預(yù)測(cè)了多種蛋白質(zhì)的三維結(jié)構(gòu)。盡管AF2在某些復(fù)雜結(jié)構(gòu)預(yù)測(cè)上仍存在局限性,但其準(zhǔn)確性已足以支持基于結(jié)構(gòu)的藥物設(shè)計(jì)。
圖3:AF2用于MOA說(shuō)明
蛋白質(zhì)對(duì)接技術(shù)通過(guò)模擬配體與受體的相互作用,預(yù)測(cè)結(jié)合親和力和結(jié)合模式。然而,傳統(tǒng)對(duì)接算法計(jì)算量大、耗時(shí)長(zhǎng)。基于深度學(xué)習(xí)的對(duì)接技術(shù),如DiffDock,通過(guò)將對(duì)接過(guò)程轉(zhuǎn)化為生成建模問(wèn)題,顯著提高了對(duì)接效率。此外,擴(kuò)散生成模型(DGM)也被應(yīng)用于蛋白質(zhì)設(shè)計(jì)任務(wù),如RoseTTAFold diffusion(RFdiffusion),能夠生成具有特定功能特性的蛋白質(zhì)。
圖4:MOA闡明的擴(kuò)散模型
第3步:轉(zhuǎn)化研究
在臨床前藥物發(fā)現(xiàn)的后期階段,主要目標(biāo)是將有前景的分子優(yōu)化為更可行的候選藥物。機(jī)器學(xué)習(xí)算法在這一階段的應(yīng)用主要體現(xiàn)在多屬性優(yōu)化和藥物特性預(yù)測(cè)上。
傳統(tǒng)的候選藥物優(yōu)化方法依賴于結(jié)構(gòu)-活性關(guān)系研究,通過(guò)修改核心子結(jié)構(gòu)來(lái)優(yōu)化藥物的各項(xiàng)特性。機(jī)器學(xué)習(xí)算法通過(guò)預(yù)測(cè)分子的類藥物特性和毒性,為候選藥物的優(yōu)化提供了更為全面的指導(dǎo)。例如,利用ML模型預(yù)測(cè)溶解度、口服生物利用度、毒性和hERG安全性等參數(shù),可以在藥物發(fā)現(xiàn)的早期階段就篩選出具有有利臨床特性的候選藥物。
藥物的溶解度、ADMET特性等是決定其臨床成功與否的關(guān)鍵因素。機(jī)器學(xué)習(xí)算法在這些特性的預(yù)測(cè)中表現(xiàn)出色。例如,利用支持向量機(jī)(SVM)、多層感知器(MLP)等模型預(yù)測(cè)分子的log(P)值(親脂性指標(biāo)),可以顯著提高預(yù)測(cè)的準(zhǔn)確性。此外,通過(guò)訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò)等模型預(yù)測(cè)hERG毒性等關(guān)鍵毒性參數(shù),可以在藥物發(fā)現(xiàn)的早期階段就排除潛在的毒性風(fēng)險(xiǎn)。
結(jié)論和展望
隨著ML技術(shù)的不斷發(fā)展及其在藥物研發(fā)中的廣泛應(yīng)用,未來(lái)的藥物發(fā)現(xiàn)過(guò)程將更加高效、精準(zhǔn)。然而,要充分發(fā)揮ML技術(shù)的潛力,還需要解決以下幾個(gè)關(guān)鍵問(wèn)題:
1、數(shù)據(jù)質(zhì)量與數(shù)量:高質(zhì)量的大規(guī)模數(shù)據(jù)集是訓(xùn)練高性能ML模型的基礎(chǔ)。因此,需要不斷積累和完善生物和化學(xué)數(shù)據(jù)資源。
3、跨學(xué)科合作:藥物研發(fā)涉及生物學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域。加強(qiáng)跨學(xué)科合作有助于充分發(fā)揮各自領(lǐng)域的優(yōu)勢(shì),共同推動(dòng)藥物研發(fā)的進(jìn)步。
機(jī)器學(xué)習(xí)技術(shù)在藥物研發(fā)中的應(yīng)用為傳統(tǒng)方法帶來(lái)了革命性的變革。通過(guò)整合ML技術(shù),可以顯著提高藥物篩選的效率、準(zhǔn)確性和成功率。未來(lái)隨著數(shù)據(jù)資源的不斷豐富和算法技術(shù)的不斷進(jìn)步,機(jī)器學(xué)習(xí)在藥物研發(fā)中的應(yīng)用前景將更加廣闊。我們有理由相信,在不久的將來(lái),機(jī)器學(xué)習(xí)技術(shù)將成為藥物研發(fā)不可或缺的一部分,為人類健康事業(yè)作出更大的貢獻(xiàn)。
參考資料:
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com