问题标签 [tf-idf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2853 浏览

text - 测试时计算IDF(如TF-IDF)?

据我了解,IDF 用于计算有多少文档具有该术语(有点想法)。您可以在训练集中计算 IDF(连同 TF),因为您事先拥有所有文档。但是如果我事先没有测试集并且我以顺序方式获取测试文档(比如从网络爬虫),那么在测试时我将如何计算文档中单词的 IDF ?

0 投票
1 回答
5307 浏览

java - 如何使用 Lucene 和 Java 计算 tf-idf 的余弦相似度

我有一个查询和一组文件。我需要根据与 tf-idf 的余弦相似度对这些文档进行排名。有人可以告诉我可以从 Lucene 获得什么支持来计算它吗?我可以直接从 Lucene 计算哪些参数(我可以通过 lucene 中的某种方法直接获得 tf、idf 吗?)以及如何计算与 Lucene 的余弦相似度(如果我传递查询的两个向量和文件?)

提前感谢

0 投票
4 回答
13301 浏览

java - java - tf*idf 实现?

我基本上是在创建一个搜索引擎,我想实现 tf*idf 来根据搜索查询对我的 xml 文档进行排名。我该如何实施?我该如何启动它?任何帮助表示赞赏。

0 投票
1 回答
2977 浏览

correlation - 根据 tf-idf 值计算相关性?

根据 tf-idf 矩阵计算 pearson 相关系数以查看哪些项与其他项结合出现是否有意义?它在数学上正确吗?

我的输出是一个相关矩阵,每个单元格中每个术语都有相关系数。

  • --------term1 term2 term3
  • 学期2
  • 学期2
  • 学期2
0 投票
1 回答
2623 浏览

java - java - 如何使用文档的 tf*idf 分数实现余弦相似度?

我有一组文档,我正在其中搜索我的关键字。我已经计算了关键字和所有文档的 tf-idf 值。假设,我将我的 tf-idf 值存储在所有文档的数组中,我如何使用它来计算我的余弦相似度?任何形式的代码帮助表示赞赏!

0 投票
1 回答
371 浏览

nlp - NLP - 提高模糊字符串匹配的运行时间和召回率

我已经制定了一个有效的算法,但运行时间非常可怕。是的,我从一开始就知道这将是可怕的,但不是那么多。对于仅 200000 条记录,程序运行了一个多小时。

基本上我正在做的是:

是的,这段代码非常循环愉快。我正在使用蛮力,因为召回非常重要。所以,我想知道如何让它更快,因为我不仅要为数百万数据运行 200000 个数据,而且客户端的计算机不是高端的(1GB-2GB 的 Ram Pentium 4 或双核,我测试该程序的计算机是具有 4GB 内存的双核)。我遇到了 TF/IDF,但我不知道它是否足够。我想知道谷歌如何进行实时搜索。

提前致谢!

编辑:这个程序是一个数据过滤器。从200,000个虚拟数据(实际数据大约12M)中,我必须过滤与样本无关的数据(500个虚拟样本,我仍然不知道实际样本量有多少)。

使用给定的虚拟数据和样本,运行时间大约为 1 小时,但经过四处修补后,我成功地将其缩短到 10-15 分钟。我通过对以相同字符开头的字段和样本进行分组(不包括特殊和无意义的词,例如 the、a、an)并将字段与具有相同第一个字符的样本进行匹配来减少它。我知道那里有问题。如果该字段在第一个字符处拼写错误怎么办?但我认为这些数量可以忽略不计。样本拼写正确,因为它始终保持不变。

0 投票
0 回答
308 浏览

python - 非布尔搜索查询的嗖嗖声

我正在构建一个问答系统,为了加快进程,我希望 IR 系统从可能包含该问题答案的语料库中返回一组文档(我的 NLP 算法将尝试从全文)。

由于我使用的是 Python,因此 Whoosh 似乎是一个不错的选择,但我很难用纯布尔查询以外的方法进行搜索,这些方法不适合问答。我想要一个与字符串查询具有高 TF-IDF 相似性的文档列表。

我想输入:

“谁是美国总统?”

并获得最相似的文档,但我只是去掉了停用词:

“总统或美国或美国”

准确性不适用于 QA 流程。谁能指出一些方法或高级 API 方法以非布尔方式获取顶级文档?我愿意尝试其他库,但大多数库似乎很难与 Python 快速交互,我希望有一些超级简单的东西,这样我就可以继续专注于自然语言组件。

0 投票
1 回答
224 浏览

dataset - TF-IDF 和向量模型的数据集帮助

我想比较 TF-IDF、Vector 模型和 TF-IDF 算法的一些优化。为此,我需要一个数据集(至少 100 个英文文本文档)。我找不到一个。有什么建议么 ?

0 投票
1 回答
8092 浏览

data-mining - 词干对词频的影响?

词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?

谢谢!

0 投票
1 回答
1922 浏览

pagerank - Page Rank 优于 TF-IDF 的优势

任何人都可以指导我阅读有关 PageRank 和词频 - 逆文档频率比较的任何学术论文。我一直在搜索,我只是找到了将两者结合起来的论文。

我需要找到 Page Rank 相对于 TF-IDF 的优势