问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
485 浏览

clojure - 来自大数据的clojure频率字典

我想编写自己的朴素贝叶斯分类器,我有一个这样的文件:

(这是垃圾邮件和火腿消息的数据库,第一个单词指向垃圾邮件或火腿,直到 eoln 是来自这里的消息(大小:0.5 Mb)之前的文本http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ )

我想制作一个像这样的哈希图: {"spam" {"go" 1, "until" 100, ...}, "ham" {......}} 哈希图,其中每个值都是频率单词图(分别用于火腿和垃圾邮件)

我知道,python 或 c++ 是如何做到的,我是通过 clojure 实现的,但是我的解决方案在大数据中失败了(stackoverflow)

我的解决方案:

我试图找出错误的地方并写了这个

错误:

任何人都可以帮助我使它更好/有效吗?PS对不起我的写作错误。英语不是我的母语。

0 投票
1 回答
928 浏览

java - 如何从使用 tika 提取的文本中获取频繁出现的单词

我使用以下代码(使用 tika)提取了多种文件格式(pdf、html、doc)的文本

现在我的要求是从提取的内容中获取频繁出现的单词,你能建议我如何做到这一点。

谢谢

0 投票
3 回答
704 浏览

java - 无法获取多个文件的最常用词

嗨,我在我的 htmlfiles 文件夹中存储了 3 个 html 文件,这些文件使用 tika 提取文本并将其存储到 htmltextfiles 文件夹中的文本文件中。对于 htmltextfiles 文件夹中的每个文本文件,我删除了停用词并显示了前 10 个经常出现的词。我的 htmltextfiles 包含:

下面是我的java程序

对于此代码,我得到低于输出

问题是一个文件的关键字正在添加到下一个文件关键字中,我的目的是获得以下输出

谁能建议我如何实现这一点,我已经尝试了很多方法,但没有得到我需要的输出,请帮助我..谢谢

0 投票
2 回答
541 浏览

java - 如何使用java增加频繁出现的单词的数量

嗨,下面是我的程序,它显示前 10 个频繁出现的单词,但我的要求是获得前 30 个频繁出现的单词,

我已将地图大小更改为 30,但它不起作用,请建议我如何获得前 30 个频繁出现的单词。

谢谢

0 投票
4 回答
3124 浏览

python - 有英文单词(包括频率)的列表吗?

我正在使用 Python 将 url 解析为单词。我取得了一些成功,但我正在努力减少歧义。例如,我得到以下网址

我的算法输出:

显然,第二个解析是正确的,但第一个在技术上也同样正确(显然“suk”是我正在使用的字典中的一个词)。

如果有一个单词表还包含每个单词的频率/流行度,那么对我有很大帮助。我可以将它应用到我的算法中,然后选择第二次解析(因为“uk”显然比“suk”更常见)。有谁知道我在哪里可以找到这样的清单?我找到了 wordfrequency.info,但他们对数据收费,而且他们提供的免费样本没有足够的单词让我能够成功使用它。

或者,我想我可以下载一个大型语料库(Gutenberg 项目?)并自己获取频率值,但是如果这样的数据集已经存在,它会让我的生活更轻松。

0 投票
1 回答
3770 浏览

word-frequency - 词频图

在此处输入图像描述

我想制作一个函数,它从文本输入中产生一个像这样在图片中的词频图。这张照片是从一份报告中拍摄的,所以我不确定他们是如何制作的。

0 投票
3 回答
11900 浏览

python - How to convert sparse matrix to dense form using python

I have the following matrix which I believe is sparse. I tried converting to dense using the x.dense format but it never worked. Any suggestions as to how to do this?, thanks.

someone put forward the solution below, but is there a better way?

mx.todense(). Intended output should appear in this form:[[2,1,1,1,1,3,4], [1,5,2,1,1,1,1], [2,1,1,1,2,1,1,1]]

0 投票
6 回答
54427 浏览

r - 使用 R 的词频列表

我一直在使用 tm 包来运行一些文本分析。我的问题是创建一个包含单词及其频率的列表

我通常使用以下代码生成频率范围内的单词列表

有什么方法可以自动执行此操作,以便我们获得包含所有单词及其频率的数据框?

我面临的另一个问题是将术语文档矩阵转换为数据框。当我处理大量数据样本时,我遇到了内存错误。有一个简单的解决方案吗?

0 投票
1 回答
1720 浏览

csv - 使用python基于两个单词的词频计数

网上有很多资源展示了如何对单个单词进行字数统计,例如thisthis以及this和 others ......
但我无法找到两个单词计数频率的具体示例。

我有一个 csv 文件,其中包含一些字符串。

所以我希望输出如下:

当然,我必须去掉所有的逗号、问号......{!, , ", ', ?, ., (,), [, ], ^, %, #, @, &, *, -, _, ;, /, \, |, }

我还将删除一些我在这里找到的停用词,以便从文本中获取更具体的数据。

如何使用 python 实现这个结果?

谢谢!

0 投票
1 回答
134 浏览

ruby - 如何有效地计算大型集合中的所有短语?

我需要创建一个短语频率表,计算包含几百万个单词的非常大的集合中的所有短语。最终结果将是一个表格,例如此处创建的表格: http ://www.hermetic.ch/wfca/phrases.htm

什么是实现这一点的有效算法?如果您能够展示一些细节,那么在 Ruby 中实现它会更好。或者,坦率地说,我什至对使用xapian或 lucene 持开放态度,但在根据需要构建频率表输出方面,并没有看到一种直接的方法来实现这一点。