您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
医疗AI 正文
发私信给刘海涛
发送

0

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

导语:在WaveNano取得了成就之后,高欣教授并不是很满意,为什么?

“接下来,生物计算将成为百度重点发力的关键领域之一,在这一赛道的投入上,百度只有尽力,没有尽头。“

这是近期,李彦宏在首届生物计算大会上的一段豪言壮语。

如今随着像百度、字节跳动、华为这些科技大厂的高调加注,以及各个VC接连不断的注资,与生物计算密切相关的AI新药无疑已经成为关注度最高的创业赛道。

近日,雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题,邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技,六家先锋企业,举办了一场线上论坛分享。

作为此次论坛的开场报告嘉宾,百图生科科学顾问、沙特阿卜杜拉国王科技大学教授,高欣以《更精准的生物医学及基因组学》为题,进行了演讲。

高欣教授的团队从“靶点发现”方向出发,开展了一系列纳米孔测序相关工作,并应用深度学习算法,开发了一款全新cwDTW算法“WaveNano”,该算法直接解决了困扰生物学家的纳米孔测序仪错误率较高问题,并在国际顶级生物信息学会议ECCB发表。

作为一个计算机学家,高欣的算法研发没有止步于WaveNano,做出以上研究之后,他开始反问自己:1.自己有没有可能得到更可控、质量更好的标注数据训练监督式学习模型?2.自己有没有可能大幅提高DTW算法时间复杂度?

这些问题也在日后的研究中逐步被优化和改进。

以下是演讲全部内容,雷锋网做了不改变原意的整理和编辑:

大家晚上好,我是高欣,很高兴跟大家进行分享。今天的题目是“更精准的生物医学及基因组学”。

大家知道药物发现是一个极其漫长且昂贵的过程。一个药物平均从最初研发到上市,需要15~20年时间,耗资超过20亿美元。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

这一漫长流程由多个步骤组成的,从最开始靶点识别,到先导化合物发现、先导化合物优化、临床前动物实验、多期临床实验。

整个流程当中,任何一个步骤出现失败,都导致整个流程以失败而告终,整个药物发现流程成功率非常之低,只有不到5%。

如果对当中各个步骤统计会发现,每一个步骤的失败率都在随时间变化而逐年增高。

而且在这些步骤中,晚期发现失败消耗的代价,要远远大于早期失败。因此,早期步骤成功率在整个流程至关重要。

今天跟大家分享的题目,就主要集中在药物发现第一步“靶点识别”。

长读长测序:基因组数据的抽提利器

我想谈的是,如何通过第三代测序技术,更快、更准确得到基因组数据,得到基因组数据之后,如何更好解读基因组数据,以求发现更好的药物靶点。

这个系列云峰会讲座当中,后续speaker还会给大家分享不同步骤以及整体流程上一些振奋人心的工作。

今天我主要集中在第一步,介绍我的课题组工作,即时DNA测序方面成果。

现代医学大多都是基于基因组诊断,人共有30亿对碱基,这些碱基都是非常长的基因组序列。

大家可以把它理解成一本非常厚的字典,每个人都有一个模板。抄写这本字典的时候,就无法避免犯一些错误,例如插入、删除、错别字等等。

绝大部分错误不会导致严重后果,但如果在一些关键位置抄写错误,就会导致罕见遗传疾病。基因组诊断就是要把这些抄写错误和罕见遗传疾病相互关联起来,做到这一点,就要知道错误发生地点。

因为生物技术所限,我们没有办法通读整个字典,只能把字典拆分成一页一页,或一段一段分别解读,最后整合起来。

这是一件非常难的任务,就好像是很出名的变形艺术—metamorphosis。

基于这种metamorphosis变形艺术设计拼图游戏,就会发现拼图游戏非常难,因为所有piece都高度相似,没有任何两块完全一致。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

因此,大家想出各种办法克服技术上难点,其中一个直观办法就是把拼图块从小块变成大块,所谓长读长DNA测序。

长读长DNA测序,主要有两种技术:PacBio和纳米孔。

纳米孔相对于其它测序技术来说,主要有几大优势:

第一,便携性,纳米孔测序仪大小只有手机一半大小,理论上可以在世界任何时间、任何地点,提供及时检测,也就是point of care;

第二,测序长度非常长,可以读长有大约10k到100k这么长,相对于二代测序100~200bp长度,已经是很长的读长长度,因此可以很好处理大结构变异,以及DNA中的repeat;

第三,纳米孔测序不需要进行PCR扩增。

既然有好的地方,就一定有坏的地方,纳米孔有这么多技术上优势,主要劣势就是测序精度。

例如R9 Flowcell,测序精度只有85%左右;即使最新R10,官方精度也只有95%左右,相比于二代测序99%精度,这个确实非常低。

数据处理:纳米孔测序的长期瓶颈

测序精度低除了设备上局限性,纳米孔数据分析也是非常难的任务。

在此,我简单介绍一下纳米孔工作原理,纳米孔当中有一个膜,膜上有一些穿膜蛋白,即membrane protein。

单链DNA会被蛋白酶拽着通过膜蛋白,在任何一个时间点膜蛋白当中大约有5到6个碱基,所以可以假设是一个5mer总共会有45,大约1024种不同5mer。

由于5mer组合不同,形状不同,对孔阻塞程度也不一样,因此,当膜两端加上电压再去测一个时间点有多少电流能通过时,就会发现不同5mer在孔中的电流值不一样。

而且纳米孔测序仪测出的原始数据是离散时间序列电流值。我们想做的是解码,把离散时间序列电流值解码成ACGTDNA读长。

对于计算机同学来说,解码是一个非常经典的任务,有很多现成算法,但纳米孔解码和传统解码完全不同,主要有几大技术难点:

第一,电流测量范围小。1024种不同5mer,它们之间平均误差已经小于电流之间测量误差,直接做解码,就会有很多不确定性。

第二,DNA序列并不匀速通过,有的时候很快,有的时候很慢。但电流是以恒定频率被测量,因此在电流中,有的5mer会被测两次,有的5mer会被测200次,平均一个5mer大约被测10次左右。

从离散时间序列角度来说,并不知道任何一个时间点是在测上一个时间点5mer,还是下一个5mer。

第三,信号联配困难,DNA读长大约有1万到10万这么长,原始电信号长度又是DNA读长10倍左右,也就是10万到100万这么长。

如果把两个序列进行联配,最标准算法就是动态规划,这是一个平方时间和空间复杂度算法,这么长序列里,这种算法时间复杂度同样也没有办法接受。

纳米孔测序数据分析是一个非常难的任务,我的课题组过去三年里,已经研发端到端计算平台用于处理纳米孔测序数据分析等关键问题。

WaveNano:纳米孔测序的解码框架

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

现在给大家做个简单介绍:就是把特定离散时间序列电信号解码成一个DNA读长,最终设计成一个基于监督式学习的解码问题。

这是我们三年前设计的一个深度学习框架“WaveNano”,当中深度学习单元主要采用wave net单元,也就是声波网络相关单元想法结合wave net和残差网络,从上游到下游分别提取序列中信息,并把信息整合起来。

接下来训练一个监督式学习模型,预测任何一个时间点的上下标签。

第一个标签是时间点,和上一个时间点对比,究竟是同一5mer,还是变成下一个5mer。

第二个标签是分类,任何一个时间点测量5mer属于1024种中的哪一类。

预测完两种标签概率之后,我们就可以通过概率引导Viterbi解码算法,解码出DNA读长序列,整个流程最重要的就是“如何为监督式学习准备训练数据”。

虽然可以从公共数据集拿到很多配对原始电信号和DNA读长信息,但如果想做监督式学习,就需要知道这些原始电信号的任何一个时间点二类标签和1024类内容。

但原始电信号序列非常长,没有人会手工标注这些标签,只能自己进行数据标注,找到原始电信号和DNA读长之间最优联配。

这种问题,一般通过动态时间规整算法—“dynamic time warping”就可以解决。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

大家可以把它理解成动态规划的变种,动态规划没有空位罚分(Gap Penalty) 的情况下的变种。因为它的电流序列长度是DNA序列长度10倍,因此一旦gap penalty,gap penalty就会占据主导位置,最后联配不会好,因此就需要采用没有罚分项动态规划变种,就是DTW算法。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

简单给大家展示一下DTW算法性能,和官方base calling、Metrichor和Albacore等方法进行对比。

因为其它两个程序并不开源,不知道训练数据情况,这个比较可能还不公平,尚且无法断言,我们的算法base calling要比官方的好。但从这个表格至少可以发现,WaveNano工具非常不错。

问题溯源:两大思路继续精细化

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

但我对WaveNano其实并不满意,为什么?

首先,我更感兴趣的是现有问题,是为挑战性问题量身打造的新算法,不是简单应用市面上已有深度学习框架。

其次,这个问题还有两个限制:

第一个限制,训练数据准确度不可控。对于监督式学习模型,如果训练数据质量不好,或标注不好,最终无论算法多么强大,训练出的模型一定不好。

而刚才训练的模型,都是自己联配得来的训练数据,完全不知道离真正ground truth相差多远。

第二个限制,运算速度比较慢。对原始电信号序列和DNA读长序列进行联配的时候,DTW还是一个平方时间复杂度算法,对于序列联配的速率还比较慢。

因此,做出这些研究之后,作为一个计算机学家,我问了自己两个问题:

1.自己有没有可能得到更可控、质量更好的标注数据,用于训练监督式学习模型?

2.自己有没有可能大幅提高 DTW算法时间复杂度?

接下来,介绍一下两个问题的解决方式:

其实深度学习经常会出现数据量不够,或者标注数据量不够的情况。

这种情况下,大家经常会使用模拟器,例如Alpha Go就大量使用模拟器模拟非常多的围棋对弈。

纳米孔训练上,我也想到了模拟器想法,虽然在此之前已经有若干纳米孔模拟器,但这些模拟都是DNA读长,没有任何人能够模拟原始电信号序列。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

因此在三年前,我们提出了一个想法—Deep simulator,它可以模拟纳米孔测序整个流程。

首先,主要通过给定基因组,随机把它打成一些DNA读长,并且保证这些DNA读长分布和真实数据读长分布保持一致。

其次,对于这些随机生成读长的每一个DNA,还要随机生成它的原始电信号序列,最后用base caller,从原始电信号序列把DNA读长给呼叫回来。

因为自己的base caller并不完美,所以call回来的DNA读长并不完美,自然会引入一些插入删除,以及一些variation。

但最终模拟器还是为业内人士提供大量训练数据,用于训练他们的解码器,被大家使用的频率非常多。

所以去年,我们又提出模拟器1.5版本。这里简单介绍一下其中的技术细节。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

第一步,生成和实际数据读长长度分布一致的读长长度,为了达到这个目的,就需要对实际数据进行读长分布总结。

我们发现,实际纳米孔测序数据基本服从三个分布:指数分布、β分布和两个γ混合分布。

我们分别对三个分布进行参数估计,然后把选择权留给用户,用户选择按照哪一种分布去进行生成,最终发现生成的数据读长分布,和实际真实分布非常类似。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

第二步,对随机产生的DNA读长生成原始电信号序列。为了这件事,我们又提出了新模型—深度典型事件规整(deep canonical time warping)。

它的想法是基于DNA读长和原始电信号,分别加入两个深度学习网络作为特征提取器,提取出来两个特征序列。

如果读长和原始电信号序列是对应的,那这两个提取出来的特征序列就应该最大程度耦合到一起,因此采用典型相关分析值作为损失函数,会逼着我们深度学习框架,学到更好的特征提取。百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

在模型训练过程中,我们可能需要训练整个网络,但测试阶段只需要使用其中部分,也就是从一个读长生成原始电信号序列。

因为每一个5mer都会平均被测到10次,所以还要对每一个真实5mer重复测量次数进行统计,统计匹配分布,使得数据5mer重复测量次数和真实数据达成一致。

我们分别在4个物种上进行了模拟器训练和测试。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

简单给大家展示一下结果,通过这个图里所有对角线之的点,大家可以看到模拟器要远远好于现在市面上现有模拟器。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

回到第二个问题,也就是如何更快进行DNA读长和原始电信号序列联配。

大家已经知道,原始电信号序列长度是DNA读长10倍,而DNA读长长度是1万-10万,原始电信号读长就是10万-100万。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

尽管有非常多DTW算法变种已经被前人所发现,但所有这些方法都无法处理这么长、尺度相差这么大的两个序列联配。

基于motivation,我们提出了一种新算法—连续小波变换DTW,也就是CWDTW,它整合了三种不同idea,第一分层动态规整,第二粗化动态规整,第三受限动态规整。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

在这里我列举一个案例,如果想对两个原始序列进行联配,但两个序列都特别长,没有办法直接联配,就需要通过连续小波变换把信号进行压缩和特征提取。

因为连续小波变换,在原始电信号特征提取层面已经被证明具有很强优势,所以通过连续小波变换,可以让原来序列长度变得非常短。

在短序列维度上,就可以进行最优DTW算法,找到联配路径,而其还可以从粗化连续小波变换维度,找到更细化维度,随后序列就会变长,同时还会把找到的联配路径,投影到更细化的分辨率上。

在投影过程当中,我的联配路径一定不会是最优,但假设联配路径是一个很好的出发点,假设成一个更好联配路径。

在这个路径的邻距范围,假设一个窗口大小,让算法这个窗口范围内找到更好的联配路径。

当然窗口大小也是算法重要参数之一,随着找到更好的联配路径,就可以把它再映射到更高分辨率维度上,随着整个过程的不断循环,就可以获取到最原始的维度。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

这张图,比较了该算法和现有DTW算法性能差异,对角线上就是最优解,离对角线越近,说明找出来的联配路径离真实联配路径就越近。

大家看到红点就是FAST DTW,它离真实联配路径非常远,CWDTW基本上都能找到最优联配路径几乎一致的路径。

从时间上来讲一个CPU核上联配一对需要花费时间为0.31秒;而FAST DTW需要136秒,原始DTW需要916秒,也就是说在单核上,CWDTW把原始DTW提速了3000倍,把FAST DTW提速了400倍。

疾病嵌入:从基因数据到疾病表征

刚才介绍了通过AI方法以及高效算法,研发端到端即时DNA测序平台,我们不但要测DNA序列,还要解读DNA序列,以求发现更好的药物靶点。

在这方面,我们也做了很多工作,例如有了DNA序列之后,怎样发现每一个样本突变,怎么把它和疾病建立准确的关系。

为此,我们两年前提出了一个想法—“疾病的嵌入。”通过1.5亿美国人健康保险数据,把人类600多种所有疾病同时投影、嵌入到一个高维连续空间内。

这种嵌入一旦完成,就不需要再把疾病名字当成离散名词来使用,例如糖尿病、肝癌,大家不知道两个病之间关系是什么,更不存在定量关系。

疾病嵌入之后,每一个疾病都变成20维连续空间的一个向量,不但可以谈论疾病之间相似性,还可以谈论疾病之间不同点。

而且过去一个人同时得了多种疾病,也知道如何去表达,通过疾病嵌入只需要把这几种疾病向量相加到一起,或者加权到一起,就可以代表病人的disease tree。

有了疾病嵌入连续表征之后,我们还可以把之前所有跟疾病相关study都重新做一遍,因为不再需要对每一种疾病单独建模,通过对人类600多种疾病进行分析和建模,可以极大提高统计power。百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

这是我们两年前的工作,证明当疾病嵌入空间向量为特征时候,可以在任何一个地方,例如丹麦、瑞典这种基因组学数据上估算遗传学参数。

此外,我们还从疾病的发病年龄中就发现,不同疾病的发病年龄有很强的模式,基本可以聚成5种不同类型疾病种类。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

除了这些,疾病嵌入空间还可以重新做之前的基因组关联,也就是GWAS,同时对人类600种疾病进行基因关联。

我们在英国UK Biobank上,通过疾病嵌入特征空间,跟基因组突变空间进行新关联,就发现了116种非常强的关联信号。

这在之前GWAS研究都没有发现。而这116种强烈关联信号,很有可能作为新疾病药物靶点,同样的想法还可以应用到多模态同时嵌入,就是除了嵌入疾病还可以做药物和疾病关联嵌入。

这样疾病可以作为正则项来影响药物嵌入,反过来药物也可以作为正则项来影响疾病嵌入,不但可以嵌入疾病和药物,还可以嵌入他们之间的关系,更好发现新靶点,以及疾病潜在药物。

深度解码:罕见遗传病的隐性秘密

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

有了基因组之后,还可以找一些更隐性、更深的致病突变。例如孟德尔疾病就是由某一突变或某一基因突变造成,这是人类了解最多的疾病。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

临床上为这类病人 order全外显子或者全基因组测序,最后测序回来report,最终成功率只有25%~50%以内。

对这么简单病因疾病,我们都没有办法进行全面诊断,主要原因在于很多突变都非常深层,是隐性突变,并不直接作用于编码蛋白,或基因组层面,而是转录组层面。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

例如,它可能引发某些异常转录本出现,或者正常转录本异常表达量等情况出现,这种信号往往会由于人体NMD机制,变得非常微弱。

因此,如果想从序列测序数据中发现这种异常转录本,或者正常转录本异常表达,就需要敏感度非常高的算法。

我们也研发了一些基于转录本的疾病诊断方法,通过跟沙特临床医生合作,诊断之前悬而未解的罕见遗传疾病。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

例如去年我们第一个study就诊断了一个小头侏儒症个体,这个人有脑白质疏松以及智力发育迟缓,最终发现,他在基因区间有一个38bp大小的deletion。

我们第二个study也研究了4个不同family,这4个家族同时具有发育迟缓、小头侏儒症以及面部畸形,在他们SMG8基因当中,发现一个非常deep的致病突变。

除此之外,还有另一种解读基因组方式,通过理解regulatory code(调控代码),由于基因组里有非常多调控元件,即使在编码区域,也有几种最常见的调控机理,从起始出发,由转录起始位点调控;从结尾出发,由多聚腺苷酸加尾,也就是polyA。

如果只盯着最浅显方式,也许有几十个方式,但现在所有方法都没有办法对任意PolyA位点进行同时建模。

所以,我们从去年提出了DeeReCT工具,它结合了CNN和RNN的优点,从而得到自适应模型,对任意PolyA位点进行同时建模,以model这些位点之间竞争性。

百图生科科学顾问高欣:自我否定、二次创新,我为纳米孔测序提供了更可靠的AI工具 | 万字长文

我们把目光集中在多聚腺苷酸加尾,还研究了转录起始位点—TSS,研发了第一个基于深度学习的转录起始位点预测程序—Direct PeomID。

该方法与之前所有转录起始位点预测程序相比,除了采用深度学习框架,最大区别就是在比较平衡的正负数据集上的二分类问题。

当把这些训练好模型应用到全基因组扫描时,就会发现他们的假阳性率非常高,甚至高到无法实际使用,而这种循环迭代负样本增强想法,能够非常有效降低全基因组扫描假阳性率。

目前为止,Direct PeomID还是唯一一个可以在全基因组层面预测转录起始位点的工具。除此之外,我们还做了各种后续工具,这些都是沿着调节代码方向来操作。

最后替百图生科打一个广告,百图生科是在李彦宏和刘维带领下的干湿技术结合的造药新势力,干技术就是AI;湿技术就是生物技术。通过形成AI赋能的干湿结合大闭环,希望能够从全新角度为人类药物设计研发,做出一些突破性贡献,我们还希望更多有识之士能够加入。

问答环节

Q1:目前 AI新药研发有没有已经研发出的药物以及应用的案例?

高欣:这里如果把已经研发出来定义为获批上市,据我所知,目前AI研发的新药还没有获批上市的先例。

但已经有非常多AI研发或AI辅助研发药物在各期、不同临床实验当中。

此外,新药和研发这两个词,还有着不同的解读。

第一种解读,是为已知靶点,寻找之前不知道的化合物或药物分子。

第二种,是为已知药找新适应症,也就是老药新用。

第三种,是完全从0开始,设计之前没有的小分子或大分子药物。

事实上,各种不同解读情况当中,AI已经做出非常喜人的成果和进展。

例如从零开始药物设计上,就有非常出名的案例,MIT的James Collins lab就研发了一种从0开始的抗生素药物设计。

这种抗生素,在试验中已经展现出非常好的抗细菌效果,能够杀死一些已知抗生素没有办法清除的细菌。

此外,其它药物也有各种各样例子,国外制药企业和国内AI药物研发企业都有药物在临床实验当中。

Q2:AI药物研发的原始数据获取来源都有哪些?

高欣:这要回归到 AI药物研发根本,这是一个系统性学科,需要涉及到生物医疗的方方面面。

如果大家想从整体、完整角度去做AI药物研发,就需要获取方方面面所有原始数据来源。例如序列、组学、影像学、临床数据、生物技术数据、文本数据、三维结构数据等等,所有数据都会对最后平台成功性做出一定贡献。

Q3:NLP(自然语言处理)对于AI药物研发的用处有哪些?

高欣:NLP是深度学习最成功应用的两大领域之一。所谓AI药物研发,很大程度是指深度学习赋能药物研发。也就是NLP在AI药物研发过程当中占到至关重要的作用。

这里给大家列举两个经典案例:

第一, NLP被大量地用于知识图谱研发。

第二, NLP被大量用于各种各样蛋白质分子或DNA分子模型预训练,这些预训练模型被证明能够非常有效提取生物分子特征,并且服务各种下游。

例如AlphaFold2,应该就是基于某种蛋白质预训练模型,或protein的transformers,所以NLP技术在AI药物研发用处非常大。

Q4:百图生科的研发中是否用到药物研发知识图谱,规模有多大,数据源哪些,质量如何保证及评估。

高欣:这是非常好的问题。药物研发知识图谱取决于靶向疾病、靶向靶点,或者药物搜索空间到底有多大,它会有相应规模,这种知识图谱质量应该如何评估?

首先尽量确保数据和信息准确,一个是数据源是否可靠,再就是数据源手工校准,或者各种各样清洗、预处理是否合理,最后,还要看下游预测结果是否和先验知识吻合。

Q5:药物研发过程中,除了发现新的适应症,如何进行临床疗效评价?

高欣:药物进入临床疗效评价已经是非常后期的任务。

如果这个时候药物被证明副作用较大,或者体内不起效,损失的时间以及代价就非常大,所以在临床疗效评价之前,应该尽量确保药物被很好测试。

这些测试有各种各样方法,有统计学相关、文本挖掘、先验知识印证相关。

最后就是临床前实验,例如在湿实验室进行实验,或者在IPS细胞当中进行实验,或者类器官当中进行实验,或者是动物实验。

无论如何,大家都希望在代价不可挽回的时间点前,将这些药物的问题尽早发现出来并尽早进行挽救。

Q6:AI发现新适应症有几种方法?各自的优缺点是什么?

高欣:这是一种非常泛的问题,AI发现新适应症,就是一个非常大的问题,基本能想到的所有方法都可以被应用这个领域。

例如基于知识图谱方法、基于三维结构方法,基于多组学分析的方法,基于分子动力学模拟的方法,很难准确界定AI发现新适应症有几种方法。

Q7:在算法设计过程中,应如何与药学家进行合作,用先验知识指导算法设计,从而使算法效率更高、结果更加安全科学?

高欣:这是一个非常好的问题,涉及所有交叉领域。不光是与药学家合作,与地质学家合作、生物学家合作、植物学家合作、海洋学家合作、化学家合作等等都将面临这个问题。

这个问题最好要找到互相之间的共同语言、尊重对方专业、认可对方专业、对自己专业重要程度有良好认识合作者,然后与这些合作者进行密切的、闭环式交流与合作,有反馈合作才是成功代表。

如果只是单纯输出给另一方,没有反馈,那么这种合作注定不会成功,也不会安全。

在AI制药中就是指药学家的先验知识到底是什么,并且把他的先验知识给进行结构化,进行政策化。

把他的先验知识很好融合到数学模型和AI模型当中,然后再用预测结果去提供给药学家,让它进行甄别,让他给更下一步反馈意见,进行所谓的强化学习,

往返的闭环,才能使算法效率更高,结果更加安全和科学。

Q8:AI药物研发所用到的外部计算软件哪些是主流?还是自己开发计算软件?

高欣:这同样是个好问题,涉及到很多做生物信息或者计算生物学的人。

大家知道计算生物学和生物信息的科学家们,本身并不开发新计算软件,但他们熟知现有所有软件、包、库。

如果他们拿到新数据和新问题,可以非常熟练把现有方法应用到问题上,然后选择表现性能最好方法。

此外,还有另一类生物信息学家,他们并不满足于这种现有方法,而是希望测试所有现有方法,当现有方法能够很好解决这些问题的时候,他们才不再研发新方法。

否则他们会总结现有方法的优缺点,然后有的放矢地设计和开发自己的计算软件,针对性地解决问题,而且能够overcome这些现有外部计算方法共同约束和限制。

目前,两种不同类型的研发和科研理念,都有非常成功的例子,没有一概而论的答案。

Q9:AI开发的候选药,比传统方法开发临床实验成功率会有多大提升?

高欣:具体有多大提升,取决于具体例子,也是一个case-by-case的答案。

传统方法的改进空间实在太大,传统意义上,药厂开发新药需要15~20年时间,超过20亿美元代价,而失败率超过95%,成功率还在逐年下跌,所以即使把5%成功率提高到10%,也是巨大的进步和飞跃。

对于某些疾病、某些靶点,可能把5%提高到30%,有些则可以把5%提高到10%。无论如何都是一个非常好的进展。

大家随便上网就会发现,国内AI药企,已经可以把新药研发周期缩短到12~18个月,开发费用缩小到百万美元量级,这已经是飞跃式的进展。如果最后临床实验证明安全有效,这些药物可以获批上市将是一个非常好的应用案例。

Q10:目前AI药物研发是否主要基于分子结构?基于基因组数据的Ai药物研发,当前研究进展和未来发展如何?

高欣:首先,基于分子结构,只是非常多元信息当中的一员而已。那么主要基于分子结构的这种药物研发,例如薛定谔,他们可能是主要基于分子结构来进行AI药物研发。

但很多其他公司,完全是基于基因组数据,或者主要基于基因组数据来进行药物研发,例如加拿大DeepGenomics,他们都是基于大规模组学数据,影像数据进行AI药物研发。

Q11:AI药物研发的后续开发路径,后续可能形成的商业化的形式是什么?与big pharma 合作更多的在药物方面深入,还是受到药企的委托去做外包服务的方式? 感觉会往either 是一个药企 or 一个CRO公司方向发展?

高欣:这是和商业计划有关问题,对于集中在某一个局部痛点的AI药物研发公司来说,它们主要商业模式可能是与药企进行密切合作,为药企某一步或整个平台进行赋能。

而百图生科希望的就是和这些AI药物研发公司形成互补,一同做风险更高、未来期待收益更高大规模端到端内部闭环药物开发模式。

这不光是某些AI算法调参或局部优化,更希望有一个端到端的AI工程化和AI智能化研发,同时赋予in house生物技术以及高通量生物数据,形成内部资产闭环。

最后感谢大家提出这些非常有建设性的问题,希望下次还有机会交流。雷锋网雷锋网

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

编辑

专注AI医疗的新势力和投融资丨微信ID:Daniel-six
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说