我有存储在弹性搜索数据库中的大型图像注释数据库。我想使用这个数据库进行关键字提取。输入是文本(通常是报纸文章)。我对算法的基本想法是遍历文章中的每个术语,并使用弹性搜索来发现该术语在图像注释中的频率。然后从不常用的文章中输出术语(为了比常见的英文单词更喜欢人名或地名)。
我不需要非常复杂的东西,这些关键字仅用作用户输入的建议,但我想要更快的东西,然后向弹性搜索询问 N 个搜索查询(其中 N 是文本中的术语数),这在大文本上可能会很慢。在弹性搜索中是否有一些强大而快速的关键字提取技术?
我有存储在弹性搜索数据库中的大型图像注释数据库。我想使用这个数据库进行关键字提取。输入是文本(通常是报纸文章)。我对算法的基本想法是遍历文章中的每个术语,并使用弹性搜索来发现该术语在图像注释中的频率。然后从不常用的文章中输出术语(为了比常见的英文单词更喜欢人名或地名)。
我不需要非常复杂的东西,这些关键字仅用作用户输入的建议,但我想要更快的东西,然后向弹性搜索询问 N 个搜索查询(其中 N 是文本中的术语数),这在大文本上可能会很慢。在弹性搜索中是否有一些强大而快速的关键字提取技术?
您可以为此使用弹性搜索词聚合。他们可以返回带有指示其相对频率的文档计数的分桶关键字。这是 YML 中的示例查询。
query:
match:
annotation:
query: text of your article
aggregations:
term_frequencies:
terms:
field: annotation