癌癥是全球第二大死亡原因, 2018年估計有1,810萬新病例以及960萬人死于癌癥。學術界和工業(yè)界也不斷致力于尋找更有效的抗癌藥物。IBM位于蘇黎世的研究團隊正在構建一些人工智能機器學習的方法,加速人們對復雜疾病的主要驅動因素、分子機制以及腫瘤組成的差異等幾方面的理解。
為了推動新療法的研究進展,幫助人類更快地攻克癌癥。IBM在不久前開源了3個治療癌癥的人工智能項目。同時IBM也在第18屆歐洲計算生物學大會(ECCB)和第27屆分子生物學智能系統(tǒng)大會(ISMB)上,對這三種旨在加速癌癥研究的機器學習解決方案做了發(fā)布。下面是對這些方案的簡要討論。
1. 關于深度學習預測和解釋藥物功效的 PaccMann
研發(fā)任何一種抗癌藥物都需要投入數(shù)億美元,若提高藥物研發(fā)的效率則可以一定程度降低研發(fā)的成本。PaccMann 算法可以自動分析化合物,并預測哪些化合物最有可能對抗癌癥菌株。
算法基于神經(jīng)網(wǎng)絡來預測抗癌化合物敏感性,這是一種多模態(tài)深度學習解決方案,使不同來源的數(shù)據(jù)能幫助預測病變組織中的細胞對給定藥物的反應。同時AI在執(zhí)行預測時,還能標出哪些特定基因和化合物分子結構最受科學家關注。經(jīng)過多次實驗表明,與現(xiàn)有的化合物篩選預測算法相比,PaccMann 更為智能。該領域的研究人員則可以使用 PaccMann 的這些信息作為指導,幫助他們改進或重新利用現(xiàn)有藥物,開發(fā)新藥物。
2. 能從科學論文中自動提取知識的 INtERAcT
INtERAcT 采用無監(jiān)督學習(unsupervised learning)的方式,能從科學論文中提取蛋白質與蛋白質相互作用的信息。特別值得關注的是,它可以從與癌癥有關的、有價值的科學文獻中自動提取數(shù)據(jù)。
通常,一些生物醫(yī)藥領域研究成果、論文都會被刊登在權威雜志上,這些雜志期刊是科學家們閱讀科學成果的唯一途徑。最近,有一篇論文數(shù)據(jù)表明,僅在癌癥研究領域,平均每年就有大約1.7萬篇科學論文發(fā)表,而且論文數(shù)量還在呈指數(shù)級增長。面對如此大量的論文數(shù)量,從事癌癥領域相關研究的科學家們無法對其進行一一閱讀,INtERAcT系統(tǒng)的誕生則旨在通過AI技術從海量論文中,幫助科學家快速提取有效信息,在學術方面減輕他們的負擔。
INtERAcT 利用詞嵌入的概念處理大量科學論文的文本,并定義了一個新的度量標準來量化蛋白質之間的相互作用。對于從事生物醫(yī)學領域相關工作的人們來說,全面了解蛋白質相互作用是基礎,同時變異的蛋白質也被認為是導致細胞癌變的一個潛在因素。所以一旦 INtERAcT 能自主提取與蛋白質相互作用有關的詳細數(shù)據(jù),科學家們就能在短時間內(nèi)獲取到有用信息,并且進一步了解關于癌癥的疾病機制。
3. 利用分子數(shù)據(jù)進行病情預測的算法 PIMKL
PIMKL,使用多核學習(multi-kernel learning),利用目前在分子相互作用方面已知的數(shù)據(jù)集,來預測患癌者的病情發(fā)展和患者的潛在復發(fā)情況?;趶牟±斫M織中獲得的分子生物信息不僅能預測疾病進展,還能相應地對患者進行分類,從而使醫(yī)生能為不同病患提供更具針對性的、個性化的治療方案。
為了證明該算法的有效性,IBM研究團隊進行了一次實驗,他們使用PIMKL預測了乳腺癌患者在術后5年是否會再次復發(fā)疾病。此外,為了實驗數(shù)據(jù)的可靠性,研究團隊將PIMKL算法能力與現(xiàn)有的、應用于乳腺癌預測的另外14種AI算法進行多次比較。經(jīng)實驗結果表明,PIMKL表現(xiàn)優(yōu)于同類算法。
這三種算法展現(xiàn)了機器學習對癌癥等復雜疾病以及生物醫(yī)學研究的推動作用。對于這些癌癥的解決方案,IBM表示,他們會不斷對其進行優(yōu)化改進。此次,IBM開源這三個人工智能在癌癥領域的研究項目,是希望能限度地發(fā)揮AI在生物醫(yī)學界的積極影響。
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com