加速新型冠状病毒确诊和疫苗研发,阿里达摩院发布自动化AI检测工具

后台-系统设置-扩展变量-手机广告位-内容正文顶部

随着武汉新型冠状病毒肺炎的爆发,全国确诊病例不断攀升的情况下,使得一线医疗人员的工作面临巨大挑战。截止到2月4日(下午17时),中国(含港澳台)确诊病例20533,疑似病例23214,治愈病例680,死亡病例426。为了加速新型肺炎疫苗、新药研发和病例的确诊速度,阿里达摩院宣布向全球公共科研机构免费开放全新AI算法;而百度研究院宣布,向各基因检测机构、防疫中心免费开放线性时间算法LinearFold以及世界上现有最快的RNA结构预测网站。

 

现阶段,中国疾病控制中心已成功分离毒株,正在争分夺秒地进行疫苗和药物研发工作。研发期间,需要进行大量的数据分析、大规模文献筛选和科学超算工作。科研人员通过阿里提供的强大AI算法,将极大地缩短病毒基因测序、新药研发、蛋白筛选等工作,帮助科研机构缩短研发周期。此前,阿里就曾与基因公司联合打破世界纪录:仅用15分钟,便可完成高精度的个人全基因组测序。在过去,科学界普遍需要120个小时才能完成类似流程。

 

目前,浙江省疾控中心已上线自动化全基因组检测分析平台。该平台由浙江省疾控中心、阿里巴巴达摩院、杰毅生物联合研发,为浙江省疾控在新型冠状病毒疫情防控上提供了全自动建库和分布式计算分析能力。通过阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时,大幅缩短确诊时间,并能精准检测出病毒的变异情况。

 

该平台采用不同于核酸检测方法,而是以一项全基因组检测技术,对疑似病例的病毒样本进行全基因组序列分析比对,能够有效防止病毒变异产生的漏检,大幅提高疑似病例的确诊速度和准确率。

 

通常,主流检测手段为核酸检测方法,原理是比对疑似病例的核酸构成跟病毒的核酸构成,完全对上就可确诊。这项技术相对成熟,但由于新型冠状病毒生物安全等级较高,为防止泄漏和操作人员感染,大量自动化过程改由纯手工操作,导致实际检测时间相对较长。

 

此前,湖北省疾病控制中心已成功完成新型冠状病毒分离与全基因组测序工作,获得病毒全基因组序列全长29847bp,是基因组序列最长的病毒之一。而核酸检测方法,只能检测到病毒基因的局部。由于病毒存在变异可能,因此对于整个基因序列来说,核酸检测变的非常棘手,一旦病毒发生变异,就可能出现漏检的情况。

阿里达摩院表示,此次研发的自动化全基因组检测分析平台属于高通量测序,在AI算法的加持下,弥补了此前处理和数据分析费时费力的缺点。在整个平台中,杰毅生物开发了全自动化高通量测序建库仪,把常规需要12小时的工作缩短到2个小时。

 

每次测序过程中产生的海量基因数据,则交由达摩院AI算法进行分析。针对新型冠状病毒基因进行特征分析,达摩院团队决定采用分布式设计的分析算法,并基于蛋白质数据库(PDB)等公共数据集的数据进行算法的优化训练。

 

达摩院算法专家顾斐表示,在基因序列对比过程中,他们对算法增加了分布式设计,病毒基因分析的速度由数小时缩短到半小时,从而大幅提高疑似病例的确诊速度。同时,由于采用分布式算法,病毒拼接的速度由30分钟-1小时缩短到15-30分钟,能帮助医护人员检测到病毒全貌,变异的病毒也能精准检测,大幅提升确诊效率。

 

病毒序列拼接完成后,通过设计BiLSTM+DNN的方式训练模型,可以在15-30分钟内预测病毒蛋白二级结构。同时,达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型,为药物研发贡献技术能力。

此外,百度研究院也宣布将向各基因检测机构、防疫中心免费开放线性时间算法LinearFold,以及世界上最快的RNA结构预测网站,以提升新型冠状病毒RNA空间结构预测速度。

 

据百度研究院透露,LinearFold算法可将此次新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒,提速120倍,节省了两个数量级的等待时间。相较于经典算法,现在只需不到半分钟就可以拿到病毒的结构资料,提升基因检测、疫苗研发等科研中心的工作效率。

此次引起武汉肺炎的新型冠状病毒(2019-nCoV)与“非典”病毒、艾滋病毒、埃博拉病毒一样都属于RNA病毒,其单链结构导致病毒更容易变异、不易开发疫苗。RNA序列有丰富的空间结构,而这些结构能决定 RNA 的功能,进而帮助设计分子药物和分子检测仪。

 

传统上,RNA二级结构预测需要三次方时间复杂度的算法。也就是说,如果序列长度翻一倍的话,就要付出8 倍的计算时间,这对于 RNA 病毒基因组这样的超长序列(例如艾滋病毒有约1万个碱基,埃博拉病毒有约2万个碱基)需要很长的等待时间。而冠状病毒(包括非典病毒和这次的新冠病毒)的基因组又是所有 RNA 病毒里最长的,长达 3 万个碱基,最快的经典算法也需要 55 分钟。

 

同时,百度开放LinearFold网站给全世界科学家免费使用,据称,该网站在RNA结构预测速度和序列长度方面,都具有很大优势,在预测速度上无出其右,而且能处理的最长序列长度达10万碱基,能满足对RNA病毒全基因组结构预测的要求。

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 加速新型冠状病毒确诊和疫苗研发,阿里达摩院发布自动化AI检测工具

后台-系统设置-扩展变量-手机广告位-内容正文底部