solr - Solr 驱动的标签云

Question

我似乎被 Solr faceting-powered 标签云的逻辑所困。首先，我使用 OpenNLP 来解析我的文档并从中获取相关单词，因此每个文档都被拆分为 n 个单词。这基本上是我的 Solr 响应的样子：

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>

我相信一定有一种方法可以将这里的单词整合在一起。我首先想到的是这样的：

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>

但是分面是不可能的，因为我不知道每个 docID 我会得到多少个单词字段，那么分面必须跨字段完成（我什至不确定它是可能的）。我正在尝试寻找可能的答案，但我似乎被困住了……最后，我需要对 n 个单词进行分面，以便获得我索引中的每个文档。想法将不胜感激。

score 2 · Accepted Answer

我建议使用一个多值的单词字段并存储每个文档的单词列表。

拥有无限数量的 word\d+ 字段会使事情复杂化。

如果您使用单个单词多值字段，您可以获得所有单词及其频率，这足以创建标签云。

solr - Solr 驱动的标签云

1 回答 1

Related

Reference