“word-frequency”的相关标签问题

0 投票

0 回答

163 浏览

javascript - 基于值自动调整文本大小-D3.js 中的词频

我想创建一个充满文本的图表。文本大小应基于特定字段的值。示例数据：a-10 b-20 c-15 表示 b 文本字体大小应更大。我这样做了，但问题是数据重叠。我想要的只是显示的图像。

![推特词频图][1]

2014-04-22T08:52:16.423

0 投票

2 回答

4631 浏览

solr - 计算 SOLR 索引中单词的总频率

如果我在 SOLR 索引中搜索一个单词，我会得到包含该单词的文档的文档计数，但如果该单词在文档中包含更多次，则每个文档的总计数仍然为 1。

我需要计算每个返回的文档在字段中搜索单词的次数。

我在 Solr和SOLR词频中阅读了词频，并启用了词向量组件，但它不起作用。

我以这种方式配置了我的字段：

但是，如果我进行以下查询：

我没有任何计数：

我看到“numFound”值为 12，但“彼得潘”一词在所有 12 个文档中包含 20 次。

你能帮我找出我错的地方吗？

非常感谢！

solr word-frequency

2014-04-29T17:40:08.843

0 投票

3 回答

3553 浏览

python - 使用字典的词频

我的问题是我无法弄清楚如何使用字典显示字数并参考键长度。例如，考虑以下一段文本：

那么所需的输出将是

3 2
2 3
0 5

因为在给定的示例文本中有 3 个长度为 2 的单词、2 个长度为 3 的单词和 0 个长度为 5 的单词。

就显示列表而言，我得到了单词出现频率：

以这种格式显示字典：

python python-2.7 python-3.x dictionary word-frequency

2014-05-05T20:16:56.153

0 投票

1 回答

8763 浏览

tm - R：在语料库中找到最频繁的词组

有没有一种简单的方法可以在 R 的文本语料库中不仅找到最常见的术语，而且还可以找到表达式（所以不止一个词，词组）？

使用 tm 包，我可以找到最常见的术语，例如：

我可以使用函数找到与最常用词相关的词findAssocs()，因此我可以手动对这些词进行分组。但是我怎样才能找到这些词组在语料库中出现的次数呢？

谢谢

tm corpus word-frequency

2014-05-14T13:08:35.840

0 投票

2 回答

343 浏览

r - 词频矩阵

我有一个这样的字符串：

m<-"abcdabcdbcadacbddabcc..."

我想生成一个这样的矩阵：

在此处输入图像描述

我怎么能在 r 中做到这一点？

r text-mining word-frequency term-document-matrix

2014-05-23T13:45:36.297

0 投票

1 回答

2127 浏览

r - R中未使用的参数错误使用tm作为词频矩阵？

我是编程和 R 的新手。我正在尝试使用 Austin 包中的 wordfish 函数。我从语料库创建了一个术语文档矩阵，但无法成功使用 wordfish 命令：

wordfish 函数的正确用法是 wordfish(wfm,dir=c(1,10))。我以为我将 wcdata 定义为词频矩阵，但我一定做错了什么。非常感谢任何见解！

r package word-frequency term-document-matrix

2014-06-13T20:31:34.427

0 投票

1 回答

1166 浏览

r - R中的（快速）词频矩阵

我正在编写一个 R 程序，该程序涉及分析大量非结构化文本数据并创建词频矩阵。我一直在使用包中的wfmandwfdf函数qdap，但注意到这对于我的需求来说有点慢。看来词频矩阵的产生是瓶颈。

我的函数的代码如下。

我意识到 for 循环效率低下，因此为了定位瓶颈，我在没有这部分代码的情况下对其进行了测试（简单地读取每个文本文件并生成词频矩阵），并且几乎没有看到速度改进。例子：

输入文件是 Twitter 和 Facebook 状态发布。

有什么办法可以提高这段代码的速度吗？

EDIT2：由于体制限制，我不能发布任何原始数据。但是，只是为了说明我正在处理的内容：25k 文本文件，每个文件都包含来自单个 Twitter 用户的所有可用推文。还有另外 10 万个包含 Facebook 状态更新的文件，结构相同。

r performance text-analysis word-frequency qdap

2014-06-22T03:29:59.877

0 投票

1 回答

72 浏览

ruby - 将一个哈希值与多个哈希值进行比较以获得 ruby 中的逆文档频率

我正在尝试找到分类算法的逆文档频率，并且无法按照我的代码的结构方式（使用嵌套散列）来获取它，并且通常将一个散列与多个散列进行比较。

到目前为止，我的训练代码如下所示：

基本上，我有一个包含 4 个类别的哈希（可能会发生变化），每个类别都有字数、书籍计数和一个频率哈希，它显示了该类别的词频。与所有类别中显示的单词的频率相比，如何获得一个类别中单个单词的频率？我知道如何将一组哈希键与另一组进行比较，但我不确定如何遍历嵌套哈希以获取术语与所有其他术语的频率，如果这有意义的话。

编辑以包括预测结果 - 我想返回一个嵌套散列的散列（每个类别一个），该散列将单词显示为键，并将其显示为值的其他类别的数量。即 {:category1 = {:word => 3, :other => 2, :third => 1}, :category2 => {:another => 1, ...}} 或者将类别名称数组作为值，而不是类别的数量，也可以。

我尝试如下创建一个新的哈希，但它变成了空的：

如果有人能帮我弄清楚为什么在代码运行时@all_words 哈希是空的，我也许可以得到其余的。

ruby hash word-frequency

2014-07-17T17:43:27.737

0 投票

1 回答

208 浏览

java - 词频循环

这段代码的目标是创建一个程序，使用 java 的 main 方法来分析用户输入的一段文本。

他们通过将文本输入扫描仪然后由程序分析来做到这一点。分析是产生词频，平均长度，并以星号图表的形式打印出结果，单个“*”代表1个词。

例如“鸟可能会飞”应该输出这个结果：

但相反，我得到了这个

有没有办法改变我的代码，以便输出在第一部分中看到的内容，而不是我在第二部分中看到的内容。

代码：

java charts java.util.scanner word-frequency

2014-08-06T14:22:59.027

0 投票

2 回答

1437 浏览

java - 是否有 O(N) 解决方案来获取 List 中出现次数最多的 k 个字符串?

问题是：给定一个字符串列表和一个整数 k，根据频率降序返回前 k 个最常出现的单词。这必须在 O(N) 中完成，其中 N 是字符串列表的长度。

流行的解决方案是将（单词，频率）存储在一个哈希表中，按照频率对哈希表进行排序，输出前k个单词。然而，这不是 O(N)，因为按频率排序需要 O(NlgN)。

我想知道是否确实存在 O(N) 解决方案。我考虑过快速选择在哪里获得第 k 个最常出现的单词并对剩余的频率进行排序，但是当 k 是 N 时，这将是 O(N + klgk)，它仍然是 O(NlgN)。

java string performance algorithm word-frequency

2014-08-09T16:58:57.233

问题标签 [word-frequency]

Reference