当前位置:江苏数码科技 >> 科技 >> 文章正文

第一个ML生物医学大数据集 3行代码可以运行哈佛麻省理工斯坦福等产品

发布于:2021-01-02 被浏览:3717次

肖骁编辑和安排

量子报告| QbitAI,微信官方账号

fold 2的诞生及强效抗生素哈利星的预测.

机器学习在生物医学领域做出了很大贡献。

但是之前连大规模的机器学习数据集都没有?

无论是寻找数据,处理数据,还是验证模型效果,以往的研究都只能在几个小数据集上,或者重复研究过的几个任务上进行。

这大大降低了ML在生物医学领域的应用进度。

因此,哈佛、麻省理工、斯坦福等机构的一批研究人员开发了ML领域第一个大型生物医学数据集TDC,采用最新的模型评价方法。

这是什么数据集?

TDC(治疗学数据共享空间)数据集有三个特点:开源、大容量、3行代码。

这个开源数据集包含20个有意义的任务和70多个高质量的数据集。

它涵盖了广泛的生物医学研究领域,如靶蛋白发现、药代动力学、安全性和药物生产。研究对象不限于小分子,还包括抗体、疫苗、miRNA等。

使用起来也很简单。只需要3行代码就可以得到ML就绪的数据,使用TDC中的各种功能。

贸发局解决问题的三层架构

生物医学领域涵盖各种任务,每个任务需要不同的数据结构进行处理。

因此,贸发局提出了一个三层架构,中央教条。

一、模型要解决什么样的问题?

单实例预测:预测单个实体的一些属性(例如分子和蛋白质)。

多实例预测):预测多个实体之间的某些属性(例如反应类型)

生成):一系列已知实体,并生成具有特定属性的新实体(如优化分子)

二、模型应该学习什么样的任务?

从生物医学的角度来看,任务包括设计新的抗体,确定个性化的联合疗法,改进疾病诊断,以及寻找治疗新疾病的方法。

第三层,用什么数据集训练模型?

根据任务类型,从TDC的现有数据集中选择数据来训练模型。

按照三层架构,很容易找到需要的数据集。

比如要检索Z类问题中的学习任务Y,需要使用数据集X,只需要三行代码就可以找到需要的结果。

贸发局的数据集是什么样子的

TDC中包含的大部分数据集和任务都不是机器学习系统研究的,但有很大的潜在应用。

例如ADMET属性预测。ADMET包含一系列药物指标,用于评价药物分子口服后能否安全有效地到达指定的靶点。

之前有研究机构做过ADMET预测,但都是基于非公开数据。

贸发局从各种小型数据库、期刊等公共资料中收集整理了20多家医药公司目前使用的重要指标,并作为开源开放了所有数据。准确预测这些指标可以帮助制药公司节省大量资源。

再比如药物的精确组合。

同一种药物在不同个体之间作用不同,尤其是肿瘤方向的药物。如果我们使用机器学习,我们可以预测各种基因表达下药物的效果。目前,贸发局已有这类数据集。

此外,多个药物分子的组合往往优于单个药物分子。如果我们能够预测两种药物分子的结合效果,就可以节省大量的新药研发时间。贸发局已经处理了这些数据集。

生物制品方向也有任务。

近年来,机器学习在小分子方面有很多应用,但在大分子生物制药方面的应用很少。

TDC还包括生物制药中的6项任务,包括抗体与抗原的亲和力预测、多肽与MHC的亲和力预测、miRNA与靶标的反应预测等。

上止点的数据处理功能

除了核心数据集,贸发局还可以进行简单的数据处理,主要包括以下四点:

模型评估:TDC提供评估功能。评估TDC中的任务只需要3行代码。

数据分割:TDC为训练集和测试集提供了一些分割方法,用来模拟实际的生物医学场景,比如支架分割。

数据处理:TDC提供可视化、标签转换、二值化等工具。

分子生成任务:目的是使产生的新药分子具有更好的性质。TDC已经收集了20多个有意义的任务,只需要3行代码就可以运行。

您还可以刷新列表排名

此外,TDC还为机器学习研究人员提供了各种类型的排行榜,以比较模型的预测效果。

虽然TDC提供的每个数据集都可以作为基准,但是一个机器学习模型要想得到真正的评价,就必须在一系列数据集和任务上取得更好的结果。

所以TDC结合各种子基准,围绕各种有意义的生物医学问题形成基准组合。

所有的测量标准、训练、测试和分割方法都是为了模拟实际的生物医学应用场景而设计的。

团队介绍

贸发局的开发和维护团队由许多大学和机构的研究人员组成。

五位主要开发者分别是哈佛的黄克新、佐治亚理工学院的傅天凡、麻省理工学院的高、的赵越和斯坦福的优素福鲁哈尼。

另外还有他们的五位导师,也为这个数据集的开发做出了很多贡献。

目前TDC数据集在不断更新完善,作者黄克新表示,CRISPR、临床试验等其他数据也会不断更新。

标签: 数据 任务 药物