我想知道您是否知道任何可以为以下情况自动分配的算法:我有一些定义了一些关键字的论文,以及一些定义了一些特定关键字的审稿人。我如何进行自动映射,以便审稿人可以从他/她感兴趣的领域审阅论文?
问问题
91 次
3 回答
0
您基本上需要设计自己的解析器,或者根据您的需要专门化现有的解析器。您需要扫描论文,并根据您的关键字,相应地搜索和匹配您的令牌。然后将带有这些关键字的句子分开并显示给审阅者。
我建议使用Stanford NLP POS tagger。您需要的每个关键字都将属于词性。然后,您可以标记您的完整文档,并搜索这些标签并相应地整理句子。
于 2012-06-12T11:28:24.390 回答
0
如果您愿意使用外部工具Lucene是一个库,可让您根据(来自他们的网站)搜索文本
- 短语查询、通配符查询、邻近查询、范围查询等
- 字段搜索(例如,标题、作者、内容)
- 日期范围搜索
- 按任何字段排序
- 合并结果的多索引搜索
- 允许同时更新和搜索
于 2012-06-12T11:32:12.933 回答
0
Apache Lucene可能是一种解决方案。
它允许您在 RAM 目录或文件系统的真实目录中索引文档,然后执行全文搜索。
它提出了许多非常有趣的功能,例如过滤器或分析器。例如,您可以:
- 根据文档的语言删除停用词(例如英语:a、the、of 等);
- 词干标记(例如,功能、功能、功能等,被视为单个实例);
- 执行复杂的查询(例如review*、keyw?rds、“to be or not to be”等);
- 等等等等...
你应该看看!如果 Lucene 是您选择的方式,请随时问我一些代码示例:)
于 2012-06-12T11:34:07.180 回答