问题标签 [word-frequency]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

326 问题

0 投票

2 回答

485 浏览

clojure - 来自大数据的clojure频率字典

我想编写自己的朴素贝叶斯分类器，我有一个这样的文件：

（这是垃圾邮件和火腿消息的数据库，第一个单词指向垃圾邮件或火腿，直到 eoln 是来自这里的消息（大小：0.5 Mb）之前的文本http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ )

我想制作一个像这样的哈希图： {"spam" {"go" 1, "until" 100, ...}, "ham" {......}} 哈希图，其中每个值都是频率单词图（分别用于火腿和垃圾邮件）

我知道，python 或 c++ 是如何做到的，我是通过 clojure 实现的，但是我的解决方案在大数据中失败了（stackoverflow）

我的解决方案：

我试图找出错误的地方并写了这个

错误：

任何人都可以帮助我使它更好/有效吗？PS对不起我的写作错误。英语不是我的母语。

2013-06-26T12:40:22.600

0 投票

1 回答

928 浏览

java - 如何从使用 tika 提取的文本中获取频繁出现的单词

我使用以下代码（使用 tika）提取了多种文件格式（pdf、html、doc）的文本

现在我的要求是从提取的内容中获取频繁出现的单词，你能建议我如何做到这一点。

谢谢

java file apache-tika word-frequency

2013-07-03T05:27:59.510

0 投票

3 回答

704 浏览

java - 无法获取多个文件的最常用词

嗨，我在我的 htmlfiles 文件夹中存储了 3 个 html 文件，这些文件使用 tika 提取文本并将其存储到 htmltextfiles 文件夹中的文本文件中。对于 htmltextfiles 文件夹中的每个文本文件，我删除了停用词并显示了前 10 个经常出现的词。我的 htmltextfiles 包含：

下面是我的java程序

对于此代码，我得到低于输出

问题是一个文件的关键字正在添加到下一个文件关键字中，我的目的是获得以下输出

谁能建议我如何实现这一点，我已经尝试了很多方法，但没有得到我需要的输出，请帮助我..谢谢

java file apache-tika stop-words word-frequency

2013-07-04T07:45:02.887

0 投票

2 回答

541 浏览

java - 如何使用java增加频繁出现的单词的数量

嗨，下面是我的程序，它显示前 10 个频繁出现的单词，但我的要求是获得前 30 个频繁出现的单词，

我已将地图大小更改为 30，但它不起作用，请建议我如何获得前 30 个频繁出现的单词。

谢谢

java map count word-frequency

2013-07-05T07:18:39.073

0 投票

4 回答

3124 浏览

python - 有英文单词（包括频率）的列表吗？

我正在使用 Python 将 url 解析为单词。我取得了一些成功，但我正在努力减少歧义。例如，我得到以下网址

我的算法输出：

显然，第二个解析是正确的，但第一个在技术上也同样正确（显然“suk”是我正在使用的字典中的一个词）。

如果有一个单词表还包含每个单词的频率/流行度，那么对我有很大帮助。我可以将它应用到我的算法中，然后选择第二次解析（因为“uk”显然比“suk”更常见）。有谁知道我在哪里可以找到这样的清单？我找到了 wordfrequency.info，但他们对数据收费，而且他们提供的免费样本没有足够的单词让我能够成功使用它。

或者，我想我可以下载一个大型语料库（Gutenberg 项目？）并自己获取频率值，但是如果这样的数据集已经存在，它会让我的生活更轻松。

python parsing url word-frequency

2013-07-15T15:59:50.430

0 投票

1 回答

3770 浏览

word-frequency - 词频图

在此处输入图像描述

我想制作一个函数，它从文本输入中产生一个像这样在图片中的词频图。这张照片是从一份报告中拍摄的，所以我不确定他们是如何制作的。

word-frequency word-cloud

2013-07-18T12:24:20.417

0 投票

3 回答

11900 浏览

python - How to convert sparse matrix to dense form using python

I have the following matrix which I believe is sparse. I tried converting to dense using the x.dense format but it never worked. Any suggestions as to how to do this?, thanks.

someone put forward the solution below, but is there a better way?

mx.todense(). Intended output should appear in this form:[[2,1,1,1,1,3,4], [1,5,2,1,1,1,1], [2,1,1,1,2,1,1,1]]

python numpy matrix scipy word-frequency

2013-08-03T16:02:52.080

0 投票

6 回答

54427 浏览

r - 使用 R 的词频列表

我一直在使用 tm 包来运行一些文本分析。我的问题是创建一个包含单词及其频率的列表

我通常使用以下代码生成频率范围内的单词列表

有什么方法可以自动执行此操作，以便我们获得包含所有单词及其频率的数据框？

我面临的另一个问题是将术语文档矩阵转换为数据框。当我处理大量数据样本时，我遇到了内存错误。有一个简单的解决方案吗？

r text-mining word-frequency term-document-matrix

2013-08-07T10:30:35.853

0 投票

1 回答

1720 浏览

csv - 使用python基于两个单词的词频计数

网上有很多资源展示了如何对单个单词进行字数统计，例如this 和this以及this和 others ......
但我无法找到两个单词计数频率的具体示例。

我有一个 csv 文件，其中包含一些字符串。

所以我希望输出如下：

当然，我必须去掉所有的逗号、问号......{!, , ", ', ?, ., (,), [, ], ^, %, #, @, &, *, -, _, ;, /, \, |, }

我还将删除一些我在这里找到的停用词，以便从文本中获取更具体的数据。

如何使用 python 实现这个结果？

谢谢！

csv python-2.7 count frequency-analysis word-frequency

2013-09-23T06:21:49.380

0 投票

1 回答

134 浏览

ruby - 如何有效地计算大型集合中的所有短语？

我需要创建一个短语频率表，计算包含几百万个单词的非常大的集合中的所有短语。最终结果将是一个表格，例如此处创建的表格： http ://www.hermetic.ch/wfca/phrases.htm

什么是实现这一点的有效算法？如果您能够展示一些细节，那么在 Ruby 中实现它会更好。或者，坦率地说，我什至对使用xapian或 lucene 持开放态度，但在根据需要构建频率表输出方面，并没有看到一种直接的方法来实现这一点。

ruby lucene frequency xapian word-frequency

2013-09-25T21:39:07.040

1 2 3 4 5 6 7 8 9 10

问题标签 [word-frequency]

Reference