问题标签 [tf-idf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3096 浏览

algorithm - tf-idf 和以前看不见的术语

TF-IDF(词频-逆文档频率)是信息检索的主要内容。不过,这不是一个合适的模型,当新术语被引入语料库时,它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的。在传统的余弦匹配下,这些对总匹配没有影响。

0 投票
7 回答
67243 浏览

java - 如何计算两个向量的余弦相似度?

如何找到向量之间的余弦相似度?

我需要找到相似度来衡量两行文本之间的相关性。

例如,我有两个句子,例如:

用户界面系统

用户界面机器

…以及它们各自的向量在 tF-idf 之后,然后使用 LSI 进行归一化,例如 [1,0.5][0.5,1]

如何测量这些向量之间的相似度?

0 投票
1 回答
1733 浏览

frequency - Tf-idf:这种方法正确吗?

我想使用 tf-idf 计算词频。我已经起草了一个方程式,您应该在其中获得左侧的 tf-idf 值。它是否正确?

Tf-idf 用于DOCUMENT

  • occurrences(WORD,DOCUMENT)WORD: in的出现次数DOCUMENT
  • number-of-words(DOCUMENT): 字数DOCUMENT
  • documents(ALL): 数据库中的文档数
  • documents(WORD, ALL):数据库中包含的文档数WORD

如果你能帮助我,那就太好了。非常感谢您!

0 投票
7 回答
24408 浏览

lucene - 在lucene中获取两个文档之间的余弦相似度

我在 Lucene 中建立了一个索引。我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?)。

例如,我从以前打开的 IndexReader 中获取 id 为 2 和 4 的文档。 Document d1 = ir.document(2); 文档 d2 = ir.document(4);

如何获得这两个文档之间的余弦相似度?

谢谢

0 投票
2 回答
3713 浏览

tf-idf - 如何计算 IDF?

谢谢你们在这个网站上帮助过 TF/IDF。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样,IDF 可以计算出有多少文档具有该术语。但我很困惑。

例如,这里是字符串“JosAH is great. JoshAH Rocks”,因此 TF 为 2/5,对于 IDF,有 2 个文档,每个文档都包含 JoshAH 术语。那么,我们将只查看该术语是否出现在其他文档中,或者我们将查看它在其他文档中出现的次数?

0 投票
3 回答
5869 浏览

java - tf idf 相似度

我正在使用 TF/IDF 来计算相似度。例如,如果我有以下两个文档。

这是正常的,它的相似性是 50%,但是当我计算它的 TF/IDF 时。如下

Doc A 的 Tf 值

Doc B 的 Tf 值

文档 A 的 IDF 值

Doc B 的 IDF 值

文档 A 的 TF/IDF 值

Doc B 的 TF/IDF 值

现在看起来有 -0.20275 相似度。是吗?还是我错过了什么?或者还有什么下一步?请告诉我,这样我也可以计算出来。

我使用了维基百科提到的 tf/idf 公式

0 投票
3 回答
16147 浏览

java - 余弦相似度

我计算了两个文档的 tf/idf 值。以下是 tf/idf 值:

文件如下:

如何使用这些值来计算余弦相似度?

我知道我应该计算点积,然后找到距离并将点积除以它。如何使用我的值计算这个?

还有一个问题:两个文档的字数相同是否重要?

0 投票
5 回答
46945 浏览

python - Python中N-Gram、tf-idf和余弦相似度的简单实现

我需要比较存储在数据库中的文档,并得出一个介于 0 和 1 之间的相似度分数。

我需要使用的方法必须非常简单。实现 n-gram 的 vanilla 版本(可以定义使用多少克),以及 tf-idf 和余弦相似度的简单实现。

有没有什么程序可以做到这一点?还是我应该从头开始写这个?

0 投票
3 回答
3458 浏览

algorithm - tf-idf:我理解对了吗?

我对做一些文档聚类很感兴趣,现在我正在考虑为此使用 TF-IDF。

如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定查询,如何将 tf-idf 应用于集群?

0 投票
1 回答
1046 浏览

lucene - 自定义相似类上的 Lucene numDocs 和 doqFreq

我在用 Lucene 做一个应用程序(我是一个菜鸟)并且我面临一些问题。我的应用程序使用具有自定义相似性实现的 Lucene 2.4.0 库(导入了 jar)

在我的应用程序中,我手动计算 doqFreq 和 numDocs (我添加所有索引的值,然后我计算一个全局值以便在每个查询中使用它)并且我想在自定义相似性实现中使用该值以计算新的以色列国防军。

问题是我不知道如何在新的相似性实现上使用(或发送)我的应用程序中的新 doqFreq 和 numDocs 值,因为我不想在这个额外的类之外更改 lucene 的代码。

有什么建议或例子吗?我阅读了文档,但我现在不知道如何解决这个问题:s

谢谢