“tf-idf”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

330 浏览

lucene - Calculate DF using Lucene doesn't work

I have an index with 2 docs at the moment (will add some more after everything will work ok). I try to calculate the df for a specific term but I get all the time the total number of docs in the index as a result.for debug purpose I entered a unique string in one doc so the result of the df should be 1. but, it returns 2. at the end of the process I'll need a tf/idf score for every word in the index.

I've tried the following code:

Tried also with IndexSearcher searcher = new IndexSearcher(ir); instead of indexReader but no luck.

P.S: I'm using lucene 3.5

lucene tf-idf

2013-01-05T11:52:15.003

0 投票

1 回答

3783 浏览

php - 如何计算 tf-idf？

我有一个问题，我无法用我的实际代码计算 tf-idf。

这是 tf-idf 的示例：

我有全部文件，但我需要 $documents_with_term 和 $term_frequency。

这是我的实际代码：

我有 $total_document_count，但我不知道如何提取 TF 和 $documents_with_term。

我怎样才能提取它们？

2013-01-18T22:54:04.647

0 投票

2 回答

2761 浏览

information-retrieval - Lucene - 获取文档频率 - termsEnum.docFreq() 总是返回 1

我目前正在尝试为 lucene 索引中的术语计算 tf-idf 矩阵。我尝试使用以下功能来做到这一点：

问题是： noOfDocs = termsEnum.docFreq(); 总是返回 1。即使显然存在多个文档中的术语（通过打印“术语”手动检查）。

我还发现，我检索的 docsEnum 是： docsEnum = termsEnum.docs(null, null); 总是只包含 1 个文档（doc 0）。

在创建索引时，我使用了带有停用词列表的标准分析器，因此所有术语都是小写的。

那我的问题是什么？：/

感谢您的帮助！

information-retrieval lucene tf-idf

2013-01-19T15:42:37.330

0 投票

1 回答

1420 浏览

machine-learning - 情感分析/分类任务中二进制与 tfidf Ngram 特征的比较？

又是一个简单的问题：使用 Ngrams（unigram/bigrams 等）作为简单的二元特征，还是在 ML 模型（如支持向量机）中使用它们的 Tfidf 分数来执行情绪分析或文本分类/分类等 NLP 任务更好？

machine-learning nlp artificial-intelligence n-gram tf-idf

2013-01-26T19:19:52.833

0 投票

1 回答

508 浏览

python - 关于如何在 gensim 中实现 tf-idf 模型的一点困惑

我正在研究 tf-idf 模型。我对这个模型是如何实现的没有什么困惑。现在，当我尝试打印模型时，我已经构建了模型，它为同一术语提供了不同的值。以下两个术语给出了这些结果：

结果如下：

我只是想知道，为什么术语 0 的 tf-idf 值在 val1 中为 0.5648，在 val2 中为 1.0。

python nlp tf-idf gensim

2013-02-05T11:01:37.083

0 投票

1 回答

133 浏览

solr - Solr 数据配置：关于 TF-IDF 的字段问题

我们在数据配置中使用 solr 1.4（我知道我知道，可悲:)）

是否仍会使用“描述”数据来计算“分数/tf-idf”值？

solr indexing tf-idf

2013-02-08T12:58:01.117

0 投票

2 回答

435 浏览

classification - TFIDF：tf 实现

我正在实现一个分类工具，并正在试验各种 TF 版本：两个对数（对数调用内部/外部的校正）、标准化、增强和对数平均。显然，由这些调制的分类器准确度存在显着差异 - 高达 5%。然而，奇怪的是，我无法提前说出在给定数据集上哪个会表现得更好。我想知道我是否缺少一些工作，或者，也许有人可以分享与这些工作的经验？

classification document-classification tf-idf

2013-02-11T15:02:01.317

0 投票

1 回答

23696 浏览

r - 试图让 tf-idf 加权在 R 中工作

我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数；我正在运行 OS X（尽管我在 Debian Squeeze 上尝试过，结果相同）；我有一个目录（这是我的工作目录），里面有几个文本文件（第一个包含Ulysses的前三集，第二个包含后三集，如果你必须知道的话）。

R 版本：2.15.1 SessionInfo() 报告这个关于 tm：[1] tm_0.5-8.3

search - 将 TF-IDF（余弦相似度）与 pagerank 相结合？

给定一个查询，我有一个文档的余弦分数。我也有文件pagerank。有没有将两者结合起来的标准好方法？

我正在考虑将它们相乘

因为如果您的 pagerank 或 cosine-score 得分较低，则该文档并不有趣。

还是最好有一个加权和？

这是否更好？那么你的余弦分数可能为零，但页面排名很高，并且页面将显示在结果中。

search search-engine tf-idf cosine-similarity

2013-02-18T16:12:53.380

0 投票

3 回答

8336 浏览

python - 使用 TfidfVectorizer scikit-learn 的自定义词汇表的问题

我正在尝试在 scikit-learn 中使用自定义词汇表来执行一些聚类任务，但我得到了非常奇怪的结果。

该程序在不使用自定义词汇表时运行正常，并且我对集群创建感到满意。但是，我已经确定了一组我想用作自定义词汇表的单词（大约 24,000 个）。

单词存储在 SQL Server 表中。到目前为止，我已经尝试了 2 种方法，但最后我得到了相同的结果。第一个是创建列表，第二个是创建字典。创建字典的代码是这样的：

然后我在 TfidfVectorizer 中使用词汇表（列表版本或字典，它们最后都给出相同的结果），如下所示：

X 的形状是 (651, 24321)，因为我有 651 个要聚类的实例和词汇表中的 24321 个单词。

如果我打印 X 的内容，这就是我得到的：

可以看出，对于大多数情况，只有词汇表中的单词存在（这是错误的，因为至少有 10 个），并且在很多情况下，甚至没有找到一个单词。此外，找到的单词在实例中往往总是相同的，这是没有意义的。

如果我使用以下方式打印 feature_names：

我得到：

我必须说，当使用的词汇表是根据输入文档确定的词汇表时，程序运行良好，所以我强烈怀疑问题与使用自定义词汇表有关。

有没有人知道发生了什么？

（我没有使用管道，所以这个问题与之前已经修复的错误无关）

python scikit-learn tf-idf vocabulary

2013-02-20T18:07:02.217

问题标签 [tf-idf]

Reference