第一个ML生物医学大数据集 3行代码可以运行哈佛麻省理工斯坦福等产品
肖骁编辑和安排
量子报告| QbitAI,微信官方账号
fold 2的诞生及强效抗生素哈利星的预测.
机器学习在生物医学领域做出了很大贡献。
但是之前连大规模的机器学习数据集都没有?
无论是寻找数据,处理数据,还是验证模型效果,以往的研究都只能在几个小数据集上,或者重复研究过的几个任务上进行。
这大大降低了ML在生物医学领域的应用进度。
因此,哈佛、麻省理工、斯坦福等机构的一批研究人员开发了ML领域第一个大型生物医学数据集TDC,采用最新的模型评价方法。
这是什么数据集?
TDC(治疗学数据共享空间)数据集有三个特点:开源、大容量、3行代码。
这个开源数据集包含20个有意义的任务和70多个高质量的数据集。
它涵盖了广泛的生物医学研究领域,如靶蛋白发现、药代动力学、安全性和药物生产。研究对象不限于小分子,还包括抗体、疫苗、miRNA等。
使用起来也很简单。只需要3行代码就可以得到ML就绪的数据,使用TDC中的各种功能。
贸发局解决问题的三层架构
生物医学领域涵盖各种任务,每个任务需要不同的数据结构进行处理。
因此,贸发局提出了一个三层架构,中央教条。
一、模型要解决什么样的问题?
单实例预测:预测单个实体的一些属性(例如分子和蛋白质)。
多实例预测):预测多个实体之间的某些属性(例如反应类型)
生成):一系列已知实体,并生成具有特定属性的新实体(如优化分子)
二、模型应该学习什么样的任务?
从生物医学的角度来看,任务包括设计新的抗体,确定个性化的联合疗法,改进疾病诊断,以及寻找治疗新疾病的方法。
第三层,用什么数据集训练模型?
根据任务类型,从TDC的现有数据集中选择数据来训练模型。
按照三层架构,很容易找到需要的数据集。
比如要检索Z类问题中的学习任务Y,需要使用数据集X,只需要三行代码就可以找到需要的结果。
贸发局的数据集是什么样子的
TDC中包含的大部分数据集和任务都不是机器学习系统研究的,但有很大的潜在应用。
例如ADMET属性预测。ADMET包含一系列药物指标,用于评价药物分子口服后能否安全有效地到达指定的靶点。
之前有研究机构做过ADMET预测,但都是基于非公开数据。
贸发局从各种小型数据库、期刊等公共资料中收集整理了20多家医药公司目前使用的重要指标,并作为开源开放了所有数据。准确预测这些指标可以帮助制药公司节省大量资源。
再比如药物的精确组合。
同一种药物在不同个体之间作用不同,尤其是肿瘤方向的药物。如果我们使用机器学习,我们可以预测各种基因表达下药物的效果。目前,贸发局已有这类数据集。
此外,多个药物分子的组合往往优于单个药物分子。如果我们能够预测两种药物分子的结合效果,就可以节省大量的新药研发时间。贸发局已经处理了这些数据集。
生物制品方向也有任务。
近年来,机器学习在小分子方面有很多应用,但在大分子生物制药方面的应用很少。
TDC还包括生物制药中的6项任务,包括抗体与抗原的亲和力预测、多肽与MHC的亲和力预测、miRNA与靶标的反应预测等。
上止点的数据处理功能
除了核心数据集,贸发局还可以进行简单的数据处理,主要包括以下四点:
模型评估:TDC提供评估功能。评估TDC中的任务只需要3行代码。
数据分割:TDC为训练集和测试集提供了一些分割方法,用来模拟实际的生物医学场景,比如支架分割。
数据处理:TDC提供可视化、标签转换、二值化等工具。
分子生成任务:目的是使产生的新药分子具有更好的性质。TDC已经收集了20多个有意义的任务,只需要3行代码就可以运行。
您还可以刷新列表排名
此外,TDC还为机器学习研究人员提供了各种类型的排行榜,以比较模型的预测效果。
虽然TDC提供的每个数据集都可以作为基准,但是一个机器学习模型要想得到真正的评价,就必须在一系列数据集和任务上取得更好的结果。
所以TDC结合各种子基准,围绕各种有意义的生物医学问题形成基准组合。
所有的测量标准、训练、测试和分割方法都是为了模拟实际的生物医学应用场景而设计的。
团队介绍
贸发局的开发和维护团队由许多大学和机构的研究人员组成。
五位主要开发者分别是哈佛的黄克新、佐治亚理工学院的傅天凡、麻省理工学院的高、的赵越和斯坦福的优素福鲁哈尼。
另外还有他们的五位导师,也为这个数据集的开发做出了很多贡献。
目前TDC数据集在不断更新完善,作者黄克新表示,CRISPR、临床试验等其他数据也会不断更新。