machine-learning - 机器学习技术在化学中的应用

Question

我是一名计算机科学专业的学生，我必须选择我未来研究工作的主题。我真的很想用计算机解决一些化学（或者生物学）中的科学问题。我对机器学习领域也有极大的兴趣。

我在网上冲浪了一段时间，并找到了一些关于这类问题的特别参考资料。但是，不幸的是，这些东西对我来说还不够。

因此，我对社区推荐的特定资源感兴趣，这些资源展示了应用 ML 技术来解决化学问题——例如，一篇期刊文章或一本描述正在解决的化学中典型（或新问题）问题的好书“在计算机上”。

score 4 · Accepted Answer

我应该认为化学和任何领域一样，都会有最丰富的问题，特别适合 ML。我想到的问题是QSAR（定量构效关系），既适用于天然化合物，也适用于前瞻性，例如药物设计。

也许看看AZOrange——一个完整的 ML 库，其唯一目的是使用 ML 技术解决化学问题。特别是，AZOrange 是备受推崇的 GUI 驱动的 ML 库Orange的重新实现，专门用于解决 QSAR 问题。

此外，这里有两篇特别好的文章——都在去年发表，并且都以机器学习为核心（链接是化学信息学杂志网站上的文章页面，包括每篇文章的全文）：

在我看来，QSAR问题的一般性质非常适合 ML 研究：

因此，这里有一些关于 ML-化学接口的有趣和当前研究领域的建议：

应用当前“最佳实践”的 QSAR 预测；例如，获得NetFlix 奖（2009 年 9 月颁发）的技术不是基于最先进的 ML 算法，而是使用了 kNN。获胜技术的有趣方面是：

数据插补技术——重新生成缺少一个或多个特征的数据行的技术；解决此稀疏问题的特定技术通常称为正最大边距矩阵分解（或非负最大边距矩阵分解）。也许有一个有趣的 QSAR 问题，由于数据质量差，特别是稀疏性，ML 技术认为这些问题无法解决。有了 PMMMF，这些可能是值得重新审视的好问题
算法组合——在获得 NetFlix 奖之前，ML 从业者通常知道涉及组合两个或多个分类器结果的后处理技术，但实际上这些技术很少使用。这些技术中使用最广泛的是AdaBoost、 Gradient Boosting 和 Bagging（引导聚合）。我想知道是否存在一些 QSAR 问题，最先进的 ML 技术尚未完全提供问题上下文所需的分辨率或预测精度；如果是这样，那么知道这些结果是否可以通过组合分类器来改进肯定会很有趣。除了经常显着提高预测准确性之外，这些技术的另一个优点是它们中的许多都非常易于实现。例如，Bagging 的工作原理是这样的：训练你的分类器一定数量的 epoch 并查看结果；识别训练数据中那些导致分类器分辨率最差的数据点——即，它在许多时期内始终错误地预测的数据点；对那些训练实例应用更高的权重（即，

1 回答 1