当前位置：江苏数码科技 >> 科技 >> 文章正文

第一个ML生物医学大数据集 3行代码可以运行哈佛麻省理工斯坦福等产品

发布于：2021-01-02 被浏览：3824次

肖骁编辑和安排

量子报告| QbitAI，微信官方账号

fold 2的诞生及强效抗生素哈利星的预测.

机器学习在生物医学领域做出了很大贡献。

但是之前连大规模的机器学习数据集都没有？

无论是寻找数据，处理数据，还是验证模型效果，以往的研究都只能在几个小数据集上，或者重复研究过的几个任务上进行。

这大大降低了ML在生物医学领域的应用进度。

因此，哈佛、麻省理工、斯坦福等机构的一批研究人员开发了ML领域第一个大型生物医学数据集TDC，采用最新的模型评价方法。

这是什么数据集？

TDC(治疗学数据共享空间)数据集有三个特点：开源、大容量、3行代码。

这个开源数据集包含20个有意义的任务和70多个高质量的数据集。

它涵盖了广泛的生物医学研究领域，如靶蛋白发现、药代动力学、安全性和药物生产。研究对象不限于小分子，还包括抗体、疫苗、miRNA等。

使用起来也很简单。只需要3行代码就可以得到ML就绪的数据，使用TDC中的各种功能。

贸发局解决问题的三层架构

生物医学领域涵盖各种任务，每个任务需要不同的数据结构进行处理。

因此，贸发局提出了一个三层架构，中央教条。

一、模型要解决什么样的问题？

单实例预测：预测单个实体的一些属性(例如分子和蛋白质)。

多实例预测):预测多个实体之间的某些属性(例如反应类型)

生成):一系列已知实体，并生成具有特定属性的新实体(如优化分子)

二、模型应该学习什么样的任务？

从生物医学的角度来看，任务包括设计新的抗体，确定个性化的联合疗法，改进疾病诊断，以及寻找治疗新疾病的方法。

第三层，用什么数据集训练模型？

根据任务类型，从TDC的现有数据集中选择数据来训练模型。

按照三层架构，很容易找到需要的数据集。

比如要检索Z类问题中的学习任务Y，需要使用数据集X，只需要三行代码就可以找到需要的结果。

贸发局的数据集是什么样子的

TDC中包含的大部分数据集和任务都不是机器学习系统研究的，但有很大的潜在应用。

例如ADMET属性预测。ADMET包含一系列药物指标，用于评价药物分子口服后能否安全有效地到达指定的靶点。

之前有研究机构做过ADMET预测，但都是基于非公开数据。

贸发局从各种小型数据库、期刊等公共资料中收集整理了20多家医药公司目前使用的重要指标，并作为开源开放了所有数据。准确预测这些指标可以帮助制药公司节省大量资源。

再比如药物的精确组合。

同一种药物在不同个体之间作用不同，尤其是肿瘤方向的药物。如果我们使用机器学习，我们可以预测各种基因表达下药物的效果。目前，贸发局已有这类数据集。

此外，多个药物分子的组合往往优于单个药物分子。如果我们能够预测两种药物分子的结合效果，就可以节省大量的新药研发时间。贸发局已经处理了这些数据集。

生物制品方向也有任务。

近年来，机器学习在小分子方面有很多应用，但在大分子生物制药方面的应用很少。

TDC还包括生物制药中的6项任务，包括抗体与抗原的亲和力预测、多肽与MHC的亲和力预测、miRNA与靶标的反应预测等。

上止点的数据处理功能

除了核心数据集，贸发局还可以进行简单的数据处理，主要包括以下四点：

模型评估：TDC提供评估功能。评估TDC中的任务只需要3行代码。

数据分割：TDC为训练集和测试集提供了一些分割方法，用来模拟实际的生物医学场景，比如支架分割。

数据处理：TDC提供可视化、标签转换、二值化等工具。

分子生成任务：目的是使产生的新药分子具有更好的性质。TDC已经收集了20多个有意义的任务，只需要3行代码就可以运行。

您还可以刷新列表排名

此外，TDC还为机器学习研究人员提供了各种类型的排行榜，以比较模型的预测效果。

虽然TDC提供的每个数据集都可以作为基准，但是一个机器学习模型要想得到真正的评价，就必须在一系列数据集和任务上取得更好的结果。

所以TDC结合各种子基准，围绕各种有意义的生物医学问题形成基准组合。

所有的测量标准、训练、测试和分割方法都是为了模拟实际的生物医学应用场景而设计的。

团队介绍

贸发局的开发和维护团队由许多大学和机构的研究人员组成。

五位主要开发者分别是哈佛的黄克新、佐治亚理工学院的傅天凡、麻省理工学院的高、的赵越和斯坦福的优素福鲁哈尼。

另外还有他们的五位导师，也为这个数据集的开发做出了很多贡献。

目前TDC数据集在不断更新完善，作者黄克新表示，CRISPR、临床试验等其他数据也会不断更新。

标签：数据任务药物

本类推荐

TOP 10