研究结果表明,许多广泛使用的数据集缺乏对生物分子结构的均匀覆盖,这限制了在这些数据集上训练的模型的预测能力。作者提出了两种额外的方法来评估训练数据集是否偏离已知分子分布,这可能有助于指导未来数据集的创建以提高模型性能。 几十年来,机器学习在生物化学和化学领域已经得到成功应用。作者着眼于从生物相关小分子的分子结构预测其化学
作为目前生物分子、金属配合物和电解质领域规模最大、多样性最丰富的高精度量子化学计算数据集,OMol25 为医疗健康和储能技术的原子级设计提供了前所未有的精确度。OMol25 数据集采用高性能量子化学程序包 ORCA 构建,突破了传统技术对大型原子系统模拟的限制。既往分子数据集仅包含 20-30 个原子及有限元素,而 OMol2...
这些模型假设训练和评估数据中没有覆盖偏差,这意味着数据能代表真实分布。然而,这类模型很少考虑适用性范围。在这项研究中,作者调查了大规模数据集对已知生物分子结构空间的覆盖程度。为此,作者提出了一种基于求解最大公共边子图(MCES)问题的距离度量方法,该方法与化学相似性有很好的一致性。尽管这种方法在计算上很...
例如在化学领域,给定分子结构(以图表示化学键),可以利用GCN预测分子中原子的类型(如碳、氧等)。本文以数据集为例,详细阐述基于GCN的节点分类实现过程。 数据准备 (一)数据集下载与加载 首先从指定网址下载数据集,该数据集包含碳、氢、氮、氧和硫这五种不同的原子。通过以下代码实现下载与初步处理: if ~exist(d...
图卷积网络(GCN)是卷积神经网络的一种变体,在处理图结构数据的节点分类任务中有着重要应用。例如在化学领域,给定分子结构(以图表示化学键),可以利用GCN预测分子中原子的类型(如碳、氧等)。本文以数据集为例,详细阐述基于GCN的节点分类实现过程。 数据准备 ...
记录了无机分子在不同条件下呈现的稳定构型情况。数据集中有大量生物大分子如蛋白质的构型资料。针对小分子,精确测量并记录其键长、键角等关键数据。涉及复杂分子体系中分子间相互作用对构型的影响数据。提供了不同温度下分子构型发生变化的相关记录。有压力因素作用下分子空间结构改变的详细数据。记录了特定化学反应中...
包含不同组织来源的分子亚型数据记录。有关于基因表达水平的详细分子数据。涉及蛋白质组学所测定的分子亚型情况。数据集收纳代谢组学相关的分子亚型成果。对肿瘤组织的分子亚型进行了重点分析。记录了正常组织与病变组织分子亚型差异。 有基于测序技术获取的分子亚型数据。针对不同疾病类型有对应的分子亚型数据。心血管疾病...
图卷积网络(GCN)是卷积神经网络的一种变体,在处理图结构数据的节点分类任务中有着重要应用。例如在化学领域,给定分子结构(以图表示化学键),可以利用GCN预测分子中原子的类型(如碳、氧等)。本文以数据集为例,详细阐述基于GCN的节点分类实现过程。 数据准备 ...
聚类小分子数据集(基于RDKit的Python脚本) 聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。 基于RDKit的Python脚本用于聚类分子...
化学主题建模能在许多方面帮助优化和分析化学数据,例如,化学主题建模能够很好地从一个分子集中检索化学系列并将主题直接映射到分子上;帮助研究人员认识到分子数据集中隐藏的结构及分子间的替代关系;当有一个针对某一特定靶标的不同系列活性分子的主题模型时,还...