问题标签 [tf-idf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1263 问题

0 投票

2 回答

2853 浏览

text - 测试时计算IDF（如TF-IDF）？

据我了解，IDF 用于计算有多少文档具有该术语（有点想法）。您可以在训练集中计算 IDF（连同 TF），因为您事先拥有所有文档。但是如果我事先没有测试集并且我以顺序方式获取测试文档（比如从网络爬虫），那么在测试时我将如何计算文档中单词的 IDF ?

2012-04-11T14:39:05.383

0 投票

1 回答

5307 浏览

java - 如何使用 Lucene 和 Java 计算 tf-idf 的余弦相似度

我有一个查询和一组文件。我需要根据与 tf-idf 的余弦相似度对这些文档进行排名。有人可以告诉我可以从 Lucene 获得什么支持来计算它吗？我可以直接从 Lucene 计算哪些参数（我可以通过 lucene 中的某种方法直接获得 tf、idf 吗？）以及如何计算与 Lucene 的余弦相似度（如果我传递查询的两个向量和文件？）

提前感谢

java lucene tf-idf cosine-similarity

2012-04-16T11:26:18.800

0 投票

4 回答

13301 浏览

java - java - tf*idf 实现？

我基本上是在创建一个搜索引擎，我想实现 tf*idf 来根据搜索查询对我的 xml 文档进行排名。我该如何实施？我该如何启动它？任何帮助表示赞赏。

java relevance tf-idf

2012-04-18T13:52:51.177

0 投票

1 回答

2977 浏览

correlation - 根据 tf-idf 值计算相关性？

根据 tf-idf 矩阵计算 pearson 相关系数以查看哪些项与其他项结合出现是否有意义？它在数学上正确吗？

我的输出是一个相关矩阵，每个单元格中每个术语都有相关系数。

--------term1 term2 term3
学期2
学期2
学期2

correlation tf-idf pearson

2012-04-18T15:27:49.520

0 投票

1 回答

2623 浏览

java - java - 如何使用文档的 tf*idf 分数实现余弦相似度？

我有一组文档，我正在其中搜索我的关键字。我已经计算了关键字和所有文档的 tf-idf 值。假设，我将我的 tf-idf 值存储在所有文档的数组中，我如何使用它来计算我的余弦相似度？任何形式的代码帮助表示赞赏！

java similarity trigonometry tf-idf

2012-04-23T11:09:50.583

0 投票

1 回答

371 浏览

nlp - NLP - 提高模糊字符串匹配的运行时间和召回率

我已经制定了一个有效的算法，但运行时间非常可怕。是的，我从一开始就知道这将是可怕的，但不是那么多。对于仅 200000 条记录，程序运行了一个多小时。

基本上我正在做的是：

是的，这段代码非常循环愉快。我正在使用蛮力，因为召回非常重要。所以，我想知道如何让它更快，因为我不仅要为数百万数据运行 200000 个数据，而且客户端的计算机不是高端的（1GB-2GB 的 Ram Pentium 4 或双核，我测试该程序的计算机是具有 4GB 内存的双核）。我遇到了 TF/IDF，但我不知道它是否足够。我想知道谷歌如何进行实时搜索。

提前致谢！

编辑：这个程序是一个数据过滤器。从200,000个虚拟数据（实际数据大约12M）中，我必须过滤与样本无关的数据（500个虚拟样本，我仍然不知道实际样本量有多少）。

使用给定的虚拟数据和样本，运行时间大约为 1 小时，但经过四处修补后，我成功地将其缩短到 10-15 分钟。我通过对以相同字符开头的字段和样本进行分组（不包括特殊和无意义的词，例如 the、a、an）并将字段与具有相同第一个字符的样本进行匹配来减少它。我知道那里有问题。如果该字段在第一个字符处拼写错误怎么办？但我认为这些数量可以忽略不计。样本拼写正确，因为它始终保持不变。

nlp fuzzy-search tf-idf jaro-winkler

2012-04-24T01:33:28.577

0 投票

0 回答

308 浏览

python - 非布尔搜索查询的嗖嗖声

我正在构建一个问答系统，为了加快进程，我希望 IR 系统从可能包含该问题答案的语料库中返回一组文档（我的 NLP 算法将尝试从全文）。

由于我使用的是 Python，因此 Whoosh 似乎是一个不错的选择，但我很难用纯布尔查询以外的方法进行搜索，这些方法不适合问答。我想要一个与字符串查询具有高 TF-IDF 相似性的文档列表。

我想输入：

“谁是美国总统？”

并获得最相似的文档，但我只是去掉了停用词：

“总统或美国或美国”

准确性不适用于 QA 流程。谁能指出一些方法或高级 API 方法以非布尔方式获取顶级文档？我愿意尝试其他库，但大多数库似乎很难与 Python 快速交互，我希望有一些超级简单的东西，这样我就可以继续专注于自然语言组件。

python search information-retrieval whoosh tf-idf

2012-04-24T20:19:20.267

0 投票

1 回答

224 浏览

dataset - TF-IDF 和向量模型的数据集帮助

我想比较 TF-IDF、Vector 模型和 TF-IDF 算法的一些优化。为此，我需要一个数据集（至少 100 个英文文本文档）。我找不到一个。有什么建议么？

dataset corpus tf-idf cosine-similarity

2012-04-30T07:06:33.490

0 投票

1 回答

8092 浏览

data-mining - 词干对词频的影响？

词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响？

谢谢！

data-mining text-processing tf-idf stop-words stemming

2012-05-05T17:29:34.997

0 投票

1 回答

1922 浏览

pagerank - Page Rank 优于 TF-IDF 的优势

任何人都可以指导我阅读有关 PageRank 和词频 - 逆文档频率比较的任何学术论文。我一直在搜索，我只是找到了将两者结合起来的论文。

我需要找到 Page Rank 相对于 TF-IDF 的优势

pagerank tf-idf

2012-05-21T21:17:48.073

1 2 3 4 5 6 7 8 9 10

问题标签 [tf-idf]

Reference