我是一名计算机科学专业的学生,我必须选择我未来研究工作的主题。我真的很想用计算机解决一些化学(或者生物学)中的科学问题。我对机器学习领域也有极大的兴趣。
我在网上冲浪了一段时间,并找到了一些关于这类问题的特别参考资料。但是,不幸的是,这些东西对我来说还不够。
因此,我对社区推荐的特定资源感兴趣,这些资源展示了应用 ML 技术来解决化学问题——例如,一篇期刊文章或一本描述正在解决的化学中典型(或新问题)问题的好书“在计算机上”。
我是一名计算机科学专业的学生,我必须选择我未来研究工作的主题。我真的很想用计算机解决一些化学(或者生物学)中的科学问题。我对机器学习领域也有极大的兴趣。
我在网上冲浪了一段时间,并找到了一些关于这类问题的特别参考资料。但是,不幸的是,这些东西对我来说还不够。
因此,我对社区推荐的特定资源感兴趣,这些资源展示了应用 ML 技术来解决化学问题——例如,一篇期刊文章或一本描述正在解决的化学中典型(或新问题)问题的好书“在计算机上”。
我应该认为化学和任何领域一样,都会有最丰富的问题,特别适合 ML。我想到的问题是QSAR(定量构效关系),既适用于天然化合物,也适用于前瞻性,例如药物设计。
也许看看AZOrange——一个完整的 ML 库,其唯一目的是使用 ML 技术解决化学问题。特别是,AZOrange 是备受推崇的 GUI 驱动的 ML 库Orange的重新实现,专门用于解决 QSAR 问题。
此外,这里有两篇特别好的文章——都在去年发表,并且都以机器学习为核心(链接是化学信息学杂志网站上的文章页面,包括每篇文章的全文):
AZOrange-图形编程环境中用于 QSAR 建模的高性能开源机器学习。
用于 450 种氨基酸诱导肽的 2D-Qsar,具有新的亚结构对描述符,范围更广
在我看来,QSAR问题的一般性质非常适合 ML 研究:
期望变量(例如,“特征”)和响应变量(例如,“类标签”或“回归估计”)之间的高度非线性关系
至少对于较大的分子,结构-活性关系足够复杂,以至于它们至少需要几代才能通过分析手段解决,因此任何准确预测这些关系的希望只能通过经验技术可靠地实现
训练数据的海洋 将某种形式的仪器生成数据(例如,通过 X 射线晶体学确定的蛋白质结构)与记录该蛋白质化学行为行为的实验室数据(例如,反应动力学)进行配对分析
因此,这里有一些关于 ML-化学接口的有趣和当前研究领域的建议:
应用当前“最佳实践”的 QSAR 预测;例如,获得NetFlix 奖(2009 年 9 月颁发)的技术不是基于最先进的 ML 算法,而是使用了 kNN。获胜技术的有趣方面是:
数据插补技术——重新生成缺少一个或多个特征的数据行的技术;解决此稀疏问题的特定技术通常称为正最大边距矩阵分解(或非负最大边距矩阵分解)。也许有一个有趣的 QSAR 问题,由于数据质量差,特别是稀疏性,ML 技术认为这些问题无法解决。有了 PMMMF,这些可能是值得重新审视的好问题
算法组合——在获得 NetFlix 奖之前,ML 从业者通常知道涉及组合两个或多个分类器结果的后处理技术,但实际上这些技术很少使用。这些技术中使用最广泛的是AdaBoost、 Gradient Boosting 和 Bagging(引导聚合)。我想知道是否存在一些 QSAR 问题,最先进的 ML 技术尚未完全提供问题上下文所需的分辨率或预测精度;如果是这样,那么知道这些结果是否可以通过组合分类器来改进肯定会很有趣。除了经常显着提高预测准确性之外,这些技术的另一个优点是它们中的许多都非常易于实现。例如,Bagging 的工作原理是这样的:训练你的分类器一定数量的 epoch 并查看结果;识别训练数据中那些导致分类器分辨率最差的数据点——即,它在许多时期内始终错误地预测的数据点;对那些训练实例应用更高的权重(即,