问题标签 [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - Calculate DF using Lucene doesn't work
I have an index with 2 docs at the moment (will add some more after everything will work ok).
I try to calculate the df
for a specific term but I get all the time the total number of docs in the index as a result.for debug purpose I entered a unique string in one doc so the result of the df should be 1. but, it returns 2. at the end of the process I'll need a tf/idf
score for every word in the index.
I've tried the following code:
Tried also with IndexSearcher searcher = new IndexSearcher(ir);
instead of indexReader
but no luck.
P.S: I'm using lucene 3.5
php - 如何计算 tf-idf?
我有一个问题,我无法用我的实际代码计算 tf-idf。
这是 tf-idf 的示例:
我有全部文件,但我需要 $documents_with_term 和 $term_frequency。
这是我的实际代码:
我有 $total_document_count,但我不知道如何提取 TF 和 $documents_with_term。
我怎样才能提取它们?
information-retrieval - Lucene - 获取文档频率 - termsEnum.docFreq() 总是返回 1
我目前正在尝试为 lucene 索引中的术语计算 tf-idf 矩阵。我尝试使用以下功能来做到这一点:
问题是: noOfDocs = termsEnum.docFreq(); 总是返回 1。即使显然存在多个文档中的术语(通过打印“术语”手动检查)。
我还发现,我检索的 docsEnum 是: docsEnum = termsEnum.docs(null, null); 总是只包含 1 个文档(doc 0)。
在创建索引时,我使用了带有停用词列表的标准分析器,因此所有术语都是小写的。
那我的问题是什么?:/
感谢您的帮助!
machine-learning - 情感分析/分类任务中二进制与 tfidf Ngram 特征的比较?
又是一个简单的问题:使用 Ngrams(unigram/bigrams 等)作为简单的二元特征,还是在 ML 模型(如支持向量机)中使用它们的 Tfidf 分数来执行情绪分析或文本分类/分类等 NLP 任务更好?
python - 关于如何在 gensim 中实现 tf-idf 模型的一点困惑
我正在研究 tf-idf 模型。我对这个模型是如何实现的没有什么困惑。现在,当我尝试打印模型时,我已经构建了模型,它为同一术语提供了不同的值。以下两个术语给出了这些结果:
结果如下:
我只是想知道,为什么术语 0 的 tf-idf 值在 val1 中为 0.5648,在 val2 中为 1.0。
solr - Solr 数据配置:关于 TF-IDF 的字段问题
我们在数据配置中使用 solr 1.4(我知道我知道,可悲:))
是否仍会使用“描述”数据来计算“分数/tf-idf”值?
classification - TFIDF:tf 实现
我正在实现一个分类工具,并正在试验各种 TF 版本:两个对数(对数调用内部/外部的校正)、标准化、增强和对数平均。显然,由这些调制的分类器准确度存在显着差异 - 高达 5%。然而,奇怪的是,我无法提前说出在给定数据集上哪个会表现得更好。我想知道我是否缺少一些工作,或者,也许有人可以分享与这些工作的经验?
r - 试图让 tf-idf 加权在 R 中工作
我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数;我正在运行 OS X(尽管我在 Debian Squeeze 上尝试过,结果相同);我有一个目录(这是我的工作目录),里面有几个文本文件(第一个包含Ulysses的前三集,第二个包含后三集,如果你必须知道的话)。
R 版本:2.15.1 SessionInfo() 报告这个关于 tm:[1] tm_0.5-8.3
相关代码:
您会注意到,加权似乎仍然是默认词频 (tf),而不是我想要的加权 tf-idf 分数。
如果我遗漏了一些明显的东西,我深表歉意,但根据我读过的文档,这应该可行。毫无疑问,错误不在于星星......
search - 将 TF-IDF(余弦相似度)与 pagerank 相结合?
给定一个查询,我有一个文档的余弦分数。我也有文件pagerank。有没有将两者结合起来的标准好方法?
我正在考虑将它们相乘
因为如果您的 pagerank 或 cosine-score 得分较低,则该文档并不有趣。
还是最好有一个加权和?
这是否更好?那么你的余弦分数可能为零,但页面排名很高,并且页面将显示在结果中。
python - 使用 TfidfVectorizer scikit-learn 的自定义词汇表的问题
我正在尝试在 scikit-learn 中使用自定义词汇表来执行一些聚类任务,但我得到了非常奇怪的结果。
该程序在不使用自定义词汇表时运行正常,并且我对集群创建感到满意。但是,我已经确定了一组我想用作自定义词汇表的单词(大约 24,000 个)。
单词存储在 SQL Server 表中。到目前为止,我已经尝试了 2 种方法,但最后我得到了相同的结果。第一个是创建列表,第二个是创建字典。创建字典的代码是这样的:
然后我在 TfidfVectorizer 中使用词汇表(列表版本或字典,它们最后都给出相同的结果),如下所示:
X 的形状是 (651, 24321),因为我有 651 个要聚类的实例和词汇表中的 24321 个单词。
如果我打印 X 的内容,这就是我得到的:
可以看出,对于大多数情况,只有词汇表中的单词存在(这是错误的,因为至少有 10 个),并且在很多情况下,甚至没有找到一个单词。此外,找到的单词在实例中往往总是相同的,这是没有意义的。
如果我使用以下方式打印 feature_names:
我得到:
我必须说,当使用的词汇表是根据输入文档确定的词汇表时,程序运行良好,所以我强烈怀疑问题与使用自定义词汇表有关。
有没有人知道发生了什么?
(我没有使用管道,所以这个问题与之前已经修复的错误无关)