问题标签 [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - tf-idf 和以前看不见的术语
TF-IDF(词频-逆文档频率)是信息检索的主要内容。不过,这不是一个合适的模型,当新术语被引入语料库时,它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的。在传统的余弦匹配下,这些对总匹配没有影响。
java - 如何计算两个向量的余弦相似度?
如何找到向量之间的余弦相似度?
我需要找到相似度来衡量两行文本之间的相关性。
例如,我有两个句子,例如:
用户界面系统
用户界面机器
…以及它们各自的向量在 tF-idf 之后,然后使用 LSI 进行归一化,例如
[1,0.5]
和[0.5,1]
。
如何测量这些向量之间的相似度?
frequency - Tf-idf:这种方法正确吗?
我想使用 tf-idf 计算词频。我已经起草了一个方程式,您应该在其中获得左侧的 tf-idf 值。它是否正确?
Tf-idf 用于DOCUMENT
:
occurrences(WORD,DOCUMENT)
WORD
: in的出现次数DOCUMENT
number-of-words(DOCUMENT)
: 字数DOCUMENT
documents(ALL)
: 数据库中的文档数documents(WORD, ALL)
:数据库中包含的文档数WORD
如果你能帮助我,那就太好了。非常感谢您!
lucene - 在lucene中获取两个文档之间的余弦相似度
我在 Lucene 中建立了一个索引。我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?)。
例如,我从以前打开的 IndexReader 中获取 id 为 2 和 4 的文档。 Document d1 = ir.document(2); 文档 d2 = ir.document(4);
如何获得这两个文档之间的余弦相似度?
谢谢
tf-idf - 如何计算 IDF?
谢谢你们在这个网站上帮助过 TF/IDF。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样,IDF 可以计算出有多少文档具有该术语。但我很困惑。
例如,这里是字符串“JosAH is great. JoshAH Rocks”,因此 TF 为 2/5,对于 IDF,有 2 个文档,每个文档都包含 JoshAH 术语。那么,我们将只查看该术语是否出现在其他文档中,或者我们将查看它在其他文档中出现的次数?
java - tf idf 相似度
我正在使用 TF/IDF 来计算相似度。例如,如果我有以下两个文档。
这是正常的,它的相似性是 50%,但是当我计算它的 TF/IDF 时。如下
Doc A 的 Tf 值
Doc B 的 Tf 值
文档 A 的 IDF 值
Doc B 的 IDF 值
文档 A 的 TF/IDF 值
Doc B 的 TF/IDF 值
现在看起来有 -0.20275 相似度。是吗?还是我错过了什么?或者还有什么下一步?请告诉我,这样我也可以计算出来。
我使用了维基百科提到的 tf/idf 公式
java - 余弦相似度
我计算了两个文档的 tf/idf 值。以下是 tf/idf 值:
文件如下:
如何使用这些值来计算余弦相似度?
我知道我应该计算点积,然后找到距离并将点积除以它。如何使用我的值计算这个?
还有一个问题:两个文档的字数相同是否重要?
python - Python中N-Gram、tf-idf和余弦相似度的简单实现
我需要比较存储在数据库中的文档,并得出一个介于 0 和 1 之间的相似度分数。
我需要使用的方法必须非常简单。实现 n-gram 的 vanilla 版本(可以定义使用多少克),以及 tf-idf 和余弦相似度的简单实现。
有没有什么程序可以做到这一点?还是我应该从头开始写这个?
algorithm - tf-idf:我理解对了吗?
我对做一些文档聚类很感兴趣,现在我正在考虑为此使用 TF-IDF。
如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定查询,如何将 tf-idf 应用于集群?
lucene - 自定义相似类上的 Lucene numDocs 和 doqFreq
我在用 Lucene 做一个应用程序(我是一个菜鸟)并且我面临一些问题。我的应用程序使用具有自定义相似性实现的 Lucene 2.4.0 库(导入了 jar)
在我的应用程序中,我手动计算 doqFreq 和 numDocs (我添加所有索引的值,然后我计算一个全局值以便在每个查询中使用它)并且我想在自定义相似性实现中使用该值以计算新的以色列国防军。
问题是我不知道如何在新的相似性实现上使用(或发送)我的应用程序中的新 doqFreq 和 numDocs 值,因为我不想在这个额外的类之外更改 lucene 的代码。
有什么建议或例子吗?我阅读了文档,但我现在不知道如何解决这个问题:s
谢谢