1

我正在读硕士。在计算机科学和刚刚完成源的第一年。(这是一个为期两年的课程)。很快我就必须提交一份硕士申请。项目。我选择了以下主题。

“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为项目的第一阶段,我将进行完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改后的)算法,以克服当前方法的局限性。

实际上我的问题是这种类型的项目是否适合作为理学硕士。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否可以与我分享这些想法。

谢谢

4

2 回答 2

6

排名始终是任何信息检索系统中最难的部分。我认为这是一个非常好的主题,但您必须注意——尽快——定义工作范围。您可能无法开发新的 IR 引擎,而是基于例如 apache lucene 构建原型。

目前有很多数据集,包括 stackoverflow 数据转储,它为您提供为您的机器定义丰富的特征向量(点数、时间、您可以挖掘上一个问题的主题等、标签的流行度)所需的所有信息学习排名算法。在这部分工作中,您可以对特征类型进行分类(例如,用户特定、语义特征 - 标题中的软件名称)并执行一系列实验以了解哪些特征对给定数据集最重要,哪些不重要.

这样一个项目的第二个方向可以是如何有效地进行学习。背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这将很重要),例如技术变化、新软件发布等。

还有许多其他主题与搜索和机器学习有关。最好的办法是在scholar.google.com上搜索最近关于排名、机器学习和搜索的调查论文,以了解什么是最先进的。下一步是与您的理学硕士主管交谈。

祝你好运!

于 2010-10-05T22:22:37.243 回答
1

你说的一切都很好,应该做,但是你忘记了最重要的部分:

通过良好的实验和一些统计数据(p 值、置信区间)证明您的算法比其他算法更好和/或更快。

如果你这样做并让人们相信你的算法是有用的,那么你肯定不会失败:)

于 2010-10-05T09:35:57.430 回答