问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
163 浏览

javascript - 基于值自动调整文本大小-D3.js 中的词频

我想创建一个充满文本的图表。文本大小应基于特定字段的值。示例数据:a-10 b-20 c-15 表示 b 文本字体大小应更大。我这样做了,但问题是数据重叠。我想要的只是显示的图像。

![推特词频图][1]

0 投票
2 回答
4631 浏览

solr - 计算 SOLR 索引中单词的总频率

如果我在 SOLR 索引中搜索一个单词,我会得到包含该单词的文档的文档计数,但如果该单词在文档中包含更多次,则每个文档的总计数仍然为 1。

我需要计算每个返回的文档在字段中搜索单词的次数。

在 SolrSOLR词频中阅读了词频,并启用了词向量组件,但它不起作用。

我以这种方式配置了我的字段:

但是,如果我进行以下查询:

我没有任何计数:

我看到“numFound”值为 12,但“彼得潘”一词在所有 12 个文档中包含 20 次。

你能帮我找出我错的地方吗?

非常感谢!

0 投票
3 回答
3553 浏览

python - 使用字典的词频

我的问题是我无法弄清楚如何使用字典显示字数并参考键长度。例如,考虑以下一段文本:

那么所需的输出将是

3 2
2 3
0 5

因为在给定的示例文本中有 3 个长度为 2 的单词、2 个长度为 3 的单词和 0 个长度为 5 的单词。

就显示列表而言,我得到了单词出现频率:

以这种格式显示字典:

0 投票
1 回答
8763 浏览

tm - R:在语料库中找到最频繁的词组

有没有一种简单的方法可以在 R 的文本语料库中不仅找到最常见的术语,而且还可以找到表达式(所以不止一个词,词组)?

使用 tm 包,我可以找到最常见的术语,例如:

我可以使用函数找到与最常用词相关的词findAssocs(),因此我可以手动对这些词进行分组。但是我怎样才能找到这些词组在语料库中出现的次数呢?

谢谢

0 投票
2 回答
343 浏览

r - 词频矩阵

我有一个这样的字符串:

m<-"abcdabcdbcadacbddabcc..."

我想生成一个这样的矩阵:

在此处输入图像描述

我怎么能在 r 中做到这一点?

0 投票
1 回答
2127 浏览

r - R中未使用的参数错误使用tm作为词频矩阵?

我是编程和 R 的新手。我正在尝试使用 Austin 包中的 wordfish 函数。我从语料库创建了一个术语文档矩阵,但无法成功使用 wordfish 命令:

wordfish 函数的正确用法是 wordfish(wfm,dir=c(1,10))。我以为我将 wcdata 定义为词频矩阵,但我一定做错了什么。非常感谢任何见解!

0 投票
1 回答
1166 浏览

r - R中的(快速)词频矩阵

我正在编写一个 R 程序,该程序涉及分析大量非结构化文本数据并创建词频矩阵。我一直在使用包中的wfmandwfdf函数qdap,但注意到这对于我的需求来说有点慢。看来词频矩阵的产生是瓶颈。

我的函数的代码如下。

我意识到 for 循环效率低下,因此为了定位瓶颈,我在没有这部分代码的情况下对其进行了测试(简单地读取每个文本文件并生成词频矩阵),并且几乎没有看到速度改进。例子:

输入文件是 Twitter 和 Facebook 状态发布。

有什么办法可以提高这段代码的速度吗?

EDIT2:由于体制限制,我不能发布任何原始数据。但是,只是为了说明我正在处理的内容:25k 文本文件,每个文件都包含来自单个 Twitter 用户的所有可用推文。还有另外 10 万个包含 Facebook 状态更新的文件,结构相同。

0 投票
1 回答
72 浏览

ruby - 将一个哈希值与多个哈希值进行比较以获得 ruby​​ 中的逆文档频率

我正在尝试找到分类算法的逆文档频率,并且无法按照我的代码的结构方式(使用嵌套散列)来获取它,并且通常将一个散列与多个散列进行比较。

到目前为止,我的训练代码如下所示:

基本上,我有一个包含 4 个类别的哈希(可能会发生变化),每个类别都有字数、书籍计数和一个频率哈希,它显示了该类别的词频。与所有类别中显示的单词的频率相比,如何获得一个类别中单个单词的频率?我知道如何将一组哈希键与另一组进行比较,但我不确定如何遍历嵌套哈希以获取术语与所有其他术语的频率,如果这有意义的话。

编辑以包括预测结果 - 我想返回一个嵌套散列的散列(每个类别一个),该散列将单词显示为键,并将其显示为值的其他类别的数量。即 {:category1 = {:word => 3, :other => 2, :third => 1}, :category2 => {:another => 1, ...}} 或者将类别名称数组作为值,而不是类别的数量,也可以。

我尝试如下创建一个新的哈希,但它变成了空的:

如果有人能帮我弄清楚为什么在代码运行时@all_words 哈希是空的,我也许可以得到其余的。

0 投票
1 回答
208 浏览

java - 词频循环

这段代码的目标是创建一个程序,使用 java 的 main 方法来分析用户输入的一段文本。

他们通过将文本输入扫描仪然后由程序分析来做到这一点。分析是产生词频,平均长度,并以星号图表的形式打印出结果,单个“*”代表1个词。

例如“鸟可能会飞”应该输出这个结果:

但相反,我得到了这个

有没有办法改变我的代码,以便输出在第一部分中看到的内容,而不是我在第二部分中看到的内容。

代码:

0 投票
2 回答
1437 浏览

java - 是否有 O(N) 解决方案来获取 List 中出现次数最多的 k 个字符串?

问题是:给定一个字符串列表和一个整数 k,根据频率降序返回前 k 个最常出现的单词。这必须在 O(N) 中完成,其中 N 是字符串列表的长度。

流行的解决方案是将(单词,频率)存储在一个哈希表中,按照频率对哈希表进行排序,输出前k个单词。然而,这不是 O(N),因为按频率排序需要 O(NlgN)。

我想知道是否确实存在 O(N) 解决方案。我考虑过快速选择在哪里获得第 k 个最常出现的单词并对剩余的频率进行排序,但是当 k 是 N 时,这将是 O(N + klgk),它仍然是 O(NlgN)。