pytdc
提供用于药物开发的 AI 就绪数据集、基准测试与分子预测工具,涵盖 ADME、毒性、药物-目标交互作用及分子生成任务。
简介
PyTDC (Therapeutics Data Commons) 是一个全面的开源科学平台,旨在促进药物开发与治疗研究领域的机器学习应用。它作为标准化数据集、评估指标与模型基准的集中枢纽,对于从事制药领域研究的研究人员与 AI 代理至关重要。通过为整个治疗管线提供高质量的整理数据,它能够实现从分子属性预测到大规模交互网络模型的顺畅训练、测试与验证。
-
存取庞大的单实例预测数据集,包含 ADME(吸收、分布、代谢、排泄)、毒性分析(hERG, AMES, DILI)以及高通量筛选 (HTS) 生物活性数据。
-
处理复杂的多实例预测任务,例如使用 BindingDB 或 DAVIS 进行药物-目标交互作用 (DTI) 分析、DrugBank 中的药物-药物交互作用 (DDI) 以及蛋白质-蛋白质交互作用 (PPI) 网络。
-
具备分子发现的生成式功能,包含基于支架的拆分 (scaffold splitting) 以确保模型的泛化能力与评估准确性。
-
利用分子预测神谕 (Molecular Oracles) 进行属性导向的优化,让用户在生成过程中能为新分子进行评分与精炼。
-
支持标准化的数据拆分方法,包括随机拆分、支架拆分与冷启动拆分,以模拟真实的临床或实验条件。
-
通过 pip 安装 (uv pip install PyTDC),并遵循统一的编程模式 (from tdc.<problem> import <Task>) 来提取数据帧。
-
标准输入为隶属于单预测 (single_pred)、多预测 (multi_pred) 或生成 (generation) 类别的数据集识别码;输出则提供为标准化的 pandas DataFrames。
-
确保在特定的药物动力学或生物化学限制条件的科学研究情境下使用。
-
本工具最适合需要针对最先进制药数据集进行模型性能基准测试,或在分子设计工作流程中进行迭代的 AI 代理。
仓库统计
- Star 数
- 19,782
- Fork 数
- 2,207
- Open Issue 数
- 41
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 09:58