0

嗨,我想提取文档中术语的 tf-idf 值。经过一番搜索后,我在示例配置中找到了一个可以执行此操作的请求处理程序:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true

我想做的是批量分析文档。这就是我所做的:

  1. 使用 commit=true 将新文档发送到 solr 更新处理程序
  2. 使用上述 url 查询术语向量的 solr

问题是插入带有 commit=true 的文档大约需要 600 毫秒,这对于我的用例来说是不可接受的。

然后我找到了http://wiki.apache.org/solr/RealTimeGet并尝试将其与 termvector 请求处理程序结合起来:

<requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
    <lst name="defaults">
      <str name="df">text</str>
      <bool name="tv">true</bool>
    </lst>
    <arr name="last-components">
      <str>tvComponent</str>
    </arr>
  </requestHandler>

但是当我尝试查询处理程序时,我得到了这个作为响应:http: //pastebin.com/KtB7DBSv我想将这两者结合起来是不可能的?

无论如何,我怎样才能提高性能?有什么建议么?是否有另一种方法来获取 tf idf 值?

4

1 回答 1

0

我没有找到问题中具体问题的解决方案,但发现使用 softCommit=true 更快。

于 2013-07-03T07:43:42.110 回答