我可以通过计算文档中的 Term 数轻松获得 TF,我想知道如何计算文档频率,即包含该术语的文档数
到目前为止,我已经达到的是使用大量行查询 solr 并计算结果,但这非常耗费时间和内存。我只想计算条款
SolrQuery q = new SolrQuery();
q.setQuery("tweet_text:"+kw);
q.addField("tweet_text");
q.setRows(40000000);
SolrDocumentList results = null ;
try {
QueryResponse rsp = solrServer.query(q);
results = rsp.getResults();
} catch (SolrServerException e) {
e.printStackTrace();
}
ArrayList<String> tweets = new ArrayList<String>();
for (SolrDocument doc : results)
{
tweets.add(doc.getFieldValue("tweet_text").toString());
}