pytdc
提供用於藥物開發的 AI 就緒數據集、基準測試與分子預測工具,涵蓋 ADME、毒性、藥物-目標交互作用及分子生成任務。
簡介
PyTDC (Therapeutics Data Commons) 是一個全面的開源科學平台,旨在促進藥物開發與治療研究領域的機器學習應用。它作為標準化數據集、評估指標與模型基準的集中樞紐,對於從事製藥領域研究的研究人員與 AI 代理至關重要。透過為整個治療管線提供高品質的整理數據,它能夠實現從分子屬性預測到大規模交互網絡模型的順暢訓練、測試與驗證。
-
存取龐大的單實例預測數據集,包含 ADME(吸收、分佈、代謝、排泄)、毒性分析(hERG, AMES, DILI)以及高通量篩選 (HTS) 生物活性數據。
-
處理複雜的多實例預測任務,例如使用 BindingDB 或 DAVIS 進行藥物-目標交互作用 (DTI) 分析、DrugBank 中的藥物-藥物交互作用 (DDI) 以及蛋白質-蛋白質交互作用 (PPI) 網絡。
-
具備分子發現的生成式功能,包含基於支架的拆分 (scaffold splitting) 以確保模型的泛化能力與評估準確性。
-
利用分子預測神諭 (Molecular Oracles) 進行屬性導向的優化,讓使用者在生成過程中能為新分子進行評分與精煉。
-
支援標準化的數據拆分方法,包括隨機拆分、支架拆分與冷啟動拆分,以模擬真實的臨床或實驗條件。
-
透過 pip 安裝 (uv pip install PyTDC),並遵循統一的編程模式 (from tdc.<problem> import <Task>) 來提取數據幀。
-
標準輸入為隸屬於單預測 (single_pred)、多預測 (multi_pred) 或生成 (generation) 類別的數據集識別碼;輸出則提供為標準化的 pandas DataFrames。
-
確保在特定的藥物動力學或生物化學限制條件的科學研究情境下使用。
-
本工具最適合需要針對最先進製藥數據集進行模型性能基準測試,或在分子設計工作流程中進行迭代的 AI 代理。
倉庫統計
- Star 數
- 19,782
- Fork 數
- 2,207
- Open Issue 數
- 41
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 上午09:58