阿裏達摩院專家解密:AI算法將肺炎疑似病例基因分析縮短至半小時的背後

2020-04-02 13:28:27  阅读 643313 次 评论 0 条

到今天為止,肺炎疫情的發展依舊是每個人頭腦裏繃得最緊的一根弦。

截至2月1日24時,國家衛生健康委收到31個省(自û區、直轄市)和新疆生產建設兵團累計報告確診病例14380例,疑似病例有19544例。

盡管疫情嚴重,但一個好消息是,AI正成為前線醫務人員的重要加持力量。

雷鋒網了解到,2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平台,利用阿裏達摩院研發的AI算法,可將原來數小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,並能精準檢測出病毒的變異情況。

達摩院算法專家顧斐博士在疾控中心基因檢測分析現場

样Ņ檢測方法的局限性

在這麼多天科普知識的瘋狂輸出下,我們可以知道的一點是,新型冠狀病毒感染的肺炎患者的臨床表現與流感的臨床表現差別並不大。

因此,醫務人員口中所說的“小盒子”——样Ņ檢測試劑盒的檢測結果對於確診來說非Ů重要。

在样Ņ檢測試劑盒開ҁ程中,基因組測序是必不可少的步驟,這個過程會耗û數日。一旦完成,样Ņ檢測試劑盒的開發將變得很快。

那麼,試劑盒敷Ň夠了就行了嗎?遠遠不是。

此前,北¶大孷ņ孷Ń病原生物學係教授,美國ɢ明㘿拉巴馬大孷ņ孷ř微生物學係分子病毒學終身教授羅光湘曾表示,样Ņ檢測試劑盒並不能獨立使用,需要搭配PCR儀器共同進行檢測,而這種儀器隻規模較大的醫院才有,社區醫院、城醫院或許還未普及,隻能送往中心城市的醫院或疾控中心進行檢測。

所以,一開始,新型冠狀病毒样Ņ檢測隻能在湖北省疾控中心進行,而且样Ņ檢測試劑盒生產較少,就出現了疑似患者確診㛣,得不到及時救û的狀況。

此外,新型冠狀病毒本身也很“難纏”。

公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進行比對才能確定診斷結果。

達摩院算法專家顧斐博士表示,目前醫院普遍采用样Ņ檢測方法,隻能檢測到病毒基因的局部。一旦病毒發生變異,就可能出現漏檢的情況。

在接受雷鋒網(公眾號:雷鋒網)采訪時,一位知情人士透露,样Ņ檢測方法是一種用於放大擴增特定DNA片段的分子生物學技術,能利用聚合酶鏈式反應將微量的DNA大幅擴增,從而檢測出帶有特定基因片段的病毒,也就是說這種方法隻能檢測到樣本基因的局部。

(新型冠狀病毒結構)

所以,對洶湧的疫情,單靠“人肉輸出”來獲得有漏檢風險的結果,目測已經不是一個好辦法了,大量疑似的患者仍然存在。

嚴峻的抗疫形勢下,AI成為破局的一把利器。

此次研發的自動化全基因組檢測分析平台屬ҫ通量測序,由浙江省疾病預防控製中心、阿裏達摩院醫療AI團隊和傑毅生物技術公司共同研發,突破之處在於大幅縮短了檢測時間。

針對平台的合作細節以及未來的應用規劃,雷鋒網與阿裏達摩院的一位算法專家進行了采訪。

Q:傳統的病毒基因分析過程,主要包含哪些步驟和階段?  A:一般而言整個流程涵蓋:樣本標記、分裝;样Ņ提取;熒光定量PCR體係配製;上機檢測;數據報告分析。 Q:這麼一套平台,達摩院這邊投入了多少人力,什麼時候開始做,前後花了多長時間? A:疫情發生後,達摩院投入十餘人研Ҁ套新平台,例如針對新冠病毒基因的特征進行了分析,基於PDB等公共數據集的數據進行算法的優化訓練,也有算法專家奔赴浙江省疾控中心前線,與兩個合作方溝通合作,才研發了這套平台。 Q:既然是AI算法,就存在準確性的問題,達摩院的AI算法、模型在各個階段應用過程中是否需要考慮準確性的問題?  A:目前,沒有不準確的情況。在檢測過程中,對於算法而言,需要做到100%的準確率。 Q:病毒基因的檢測和分析是兩種不同的工作,你們是如何合作的? A:傑毅生物開發了全自動高通量測序建庫儀,把整體Ů規人工需要12小時的工作縮短到2個小時。簡單一點理解,就是檢測的結果進行“數據化”,然後交由達摩院開發的算法進行分析。每次測序過程會產生海量的數據,基於一係列優化的算法,可以加快樣本病例的檢測速度。在這個環節裏,算力和算法同樣重要。 Q:這樣一個幫助醫務人員在減負和提效之間保持衡的平台,未來的應用方法和合作途徑如何? A:接下來,全基因組檢測分析平台會在全省大規模應用。達摩院會與合作夥伴共同將這套技術推廣至全國。對於是否有其他省市醫院尋求使用,暫時不好透露。

點睛之筆——分布式設計的算法

值得注意的是,達摩院這次的分布式設計算法是整個平台的“點睛之筆”。

在序列比對過程中,達摩院對算法增加了分布式設計,提升了比對效率;樣本基因分析的速度由數小時縮短到半小時;在病毒序列拚接階段,達摩院使用分布式設計的de Bruijn圖算法,變異病毒也能精準檢測,病毒拚接的速度由30分鍾-1小時縮短到15-30分鍾。

除此之外,不同於傳統样Ņ檢測方法,這一平や可以檢測到病毒的全貌,對疑似病例的病毒樣本進行全基因組序列分析比對,避免因為病毒變〠成的漏檢情況。

本次分析病毒檢測和病毒變ヨ分主要基Җ源算法,設計分布式算法以加速分析流程。病毒序列拚接完成後,通過設計BiLSTM+DNN的方式訓練模型預測病毒蛋白二級結構。

與此同時,達摩院還在研究基於序列的蛋白質三維結構預測模型以及藥物篩選模型。

浙江省疾控中心基因測序負責人孫逸博士表示:“該平台基Ҙ裏雲的強大算力與達摩院新算法可以為病毒的解析提供支撐,基於該平台,未來還可以在短時間內將檢測範圍覆蓋整個確診病例,也為後續疫苗與藥物研發打下了堅實基礎。”

一場關乎全民的技術戰

為了抗疫這場關乎全民的戰役,國內的科技巨頭第一時間站了出來。

為了幫助加速新藥和疫苗研發,此前,阿裏雲宣布將向全球公共科研機構免û開放一切AI算力。

目前,中國疾控中心已成功分離病毒,但在新藥和疫苗研發期間,需要進行大量的數據分析、大規模文獻篩選和科學超算工作。阿裏雲的AI算力,可以支持病毒基因測序、新藥研發、蛋白篩選等工作,幫助科研機構縮短研發周期。

而且,除了這次的全基因組檢測分析平台,達摩院還在春節期間,用五天時間推出了“智能疫情機器人”,目前正在為浙江省新型肺炎公共服務與管理平台提供服務。

今天(2月2日),“7000人鏖戰,9天建成”的武火神山醫院正式交付。可以相信的是,在防疫戰役越來越深入的情況下,全基因組檢測分析平台會像火神山醫院一樣,用AI的力量為民眾和醫務工作者帶來更多的信心。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。