0

我想知道您是否知道任何可以为以下情况自动分配的算法:我有一些定义了一些关键字的论文,以及一些定义了一些特定关键字的审稿人。我如何进行自动映射,以便审稿人可以从他/她感兴趣的领域审阅论文?

4

3 回答 3

0

您基本上需要设计自己的解析器,或者根据您的需要专门化现有的解析器。您需要扫描论文,并根据您的关键字,相应地搜索和匹配您的令牌。然后将带有这些关键字的句子分开并显示给审阅者。

我建议使用Stanford NLP POS tagger。您需要的每个关键字都将属于词性。然后,您可以标记您的完整文档,并搜索这些标签并相应地整理句子。

于 2012-06-12T11:28:24.390 回答
0

如果您愿意使用外部工具Lucene是一个库,可让您根据(来自他们的网站)搜索文本

  • 短语查询、通配符查询、邻近查询、范围查询等
  • 字段搜索(例如,标题、作者、内容)
  • 日期范围搜索
  • 按任何字段排序
  • 合并结果的多索引搜索
  • 允许同时更新和搜索
于 2012-06-12T11:32:12.933 回答
0

Apache Lucene可能是一种解决方案。

它允许您在 RAM 目录或文件系统的真实目录中索引文档,然后执行全文搜索。

它提出了许多非常有趣的功能,例如过滤器或分析器。例如,您可以:

  • 根据文档的语言删除停用词(例如英语:a、the、of 等);
  • 词干标记(例如,功能、功能、功能等,被视为单个实例);
  • 执行复杂的查询(例如review*、keyw?rds、“to be or not to be”等);
  • 等等等等...

你应该看看!如果 Lucene 是您选择的方式,请随时问我一些代码示例:)

于 2012-06-12T11:34:07.180 回答