问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
11995 浏览

postgresql - Postgres中字符串的词频?

是否可以从 Postgres 中包含文本字符串的字段中识别不同的单词和每个单词的计数?

0 投票
4 回答
11068 浏览

python - python中的词频程序

假设我有一个名为 words 的单词列表,即 words = ["hello", "test", "string", "people", "hello", "hello"] 我想创建一个字典以获得词频.

假设字典被称为“计数”

我不明白的唯一部分是counts.get(w.0)。书上说,通常你会使用 counts[w] = counts[w] + 1 但是你第一次遇到一个新单词时,它不会在 counts 中,所以它会返回一个运行时错误。这一切都很好,但 counts.get(w,0) 到底是做什么的?具体来说,(w,0) 符号是什么意思?

0 投票
2 回答
3103 浏览

java - 文档中的字数统计频率

我有一个目录,其中有 1000 个 txt.files。我想知道每个单词在 1000 个文档中出现了多少次。所以说即使“牛”这个词在 X 中出现了 100 次,它仍然会被算作一个。如果它出现在不同的文档中,则加一。因此,如果“牛”出现在每个文档中,则最大值为 1000。我如何在不使用任何其他外部库的情况下以简单的方式做到这一点。这是我到目前为止所拥有的

0 投票
1 回答
1237 浏览

python - 从词频创建 ARFF

我有一些代码可以为我提供一个单词列表以及它们在文本中出现的频率,我正在寻找它,以便代码自动将前 10 个单词转换为 ARFF

@RELATION 词频

@ATTRIBUTE 字串 @ATTRIBUTE 频率数字

和前 10 名的数据及其频率。

我正在努力解决如何使用我当前的代码来做到这一点

对此的任何帮助表示赞赏,这样做的方法真的让我绞尽脑汁!

0 投票
2 回答
4144 浏览

python - Calculate frequency of function words

I would like to calculate the frequency of function words in Python/NLTK. I see two ways to go about it :

  • Use Part-Of-Speech tagger and sum up on POS tags which constitute to function words
  • Create a list of function words and perform a simple look up

The catch in the first case is that, my data is noisy and I don't know(for sure) which POS tags constitute as function words. The catch in the second case is I don't have a list and since my data is noisy the lookup won't be accurate.

I would prefer the first to the second or any other example which would throw me more accurate results.

0 投票
1 回答
91 浏览

nlp - 链接到包含所有英语单词的频率等级的列表

有没有人知道包含所有英语单词频率排名的列表的链接。大约六个月前,我在 'wiki' 上找到了一个包含此列表的列表,但不幸的是我没有将其添加为书签,现在我无法找到相同的链接或任何更好的链接。如果有人有这个链接或更好的东西,请发布它。

0 投票
3 回答
528 浏览

vim - Vim、词频函数和法语口音

我最近发现了 Vim Tip n° 1531(文件的词频统计)。

按照建议,我将以下代码放入我的 .vimrc

除了口音和其他法语细节(拉丁小连字 a 或 o 等)外,它工作正常。

我应该在此功能中添加什么以使其适合我的需要?

提前致谢

0 投票
1 回答
212 浏览

php - 合并数组和词频

所以我正在循环浏览一个有 41 段的文件。对于每个段落,我试图 [1] 首先将字符串分解为一个数组,然后获取该段落的词频。然后我想结合所有段落的数据,得到整个文档的词频。

我可以获得给定段落的“单词”及其“频率”的数组,但是我无法合并每个段落的结果以获得“整个文档的单词频率”。这里是我有的:

现在我得到的结果是:

1:阵列 2:阵列 3:阵列 4:阵列

任何帮助是极大的赞赏。

0 投票
5 回答
747 浏览

wolfram-mathematica - 组合词频数据列表

这似乎应该是一个显而易见的问题,但列表上的教程和文档不会出现。其中许多问题源于我的文本文件(数百 MB)的绝对大小以及我试图将它们归结为可由我的系统管理的东西。因此,我正在分段做我的工作,现在正在尝试合并结果。

我有多个词频列表(其中约 40 个)。这些列表既可以通过 Import[ ] 获取,也可以作为 Mathematica 中生成的变量。每个列表如下所示,并且是使用 Tally[ ] 和 Sort[ ] 命令生成的:

{{"the", 42216}, {"of", 24903}, {"and", 18624}, {"n", 16850}, {"in",
16164}, {"de", 14930}, { "a", 14660}, {"to", 14175}, {"la", 7347}, {"was", 6030}, {"l", 5981}, {"le", 5735}, <<51293 >>, {"abattoir", 1}, {"abatement", 1}, {"abattagen", 1}, {"abatage", 1}, {"abated", 1}, {"abandonn", 1} , {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}

这是第二个文件的示例:

{{"the", 30419}, {"n", 20414}, {"de", 19956}, {"of", 16262}, {"and",
14488}, {"to", 12726}, { "a", 12635}, {"in", 11141}, {"la", 10739}, {"et", 9016}, {"les", 8675}, {"le", 7748}, <<101032 >>, {"abatement", 1}, {"abattagen", 1}, {"abatage", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1} , {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}

我想将它们组合起来,以便频率数据聚合:即,如果第二个文件有 30,419 次出现“the”并连接到第一个文件,它应该返回有 72,635 次出现(依此类推,因为我通过整个收藏)。

0 投票
1 回答
801 浏览

mongodb - 存储词频数据

我正在尝试使用 Mongo 存储词频数据。每个单词都需要与用户相关联,这样我就可以计算出个人使用每个单词的频率。目前我的单词集如下所示:

这显然只能在“一对一”的基础上工作,而且不好。

我正在努力研究如何最好地使其成为用户和单词之间的“一对多”关系。我会像这样将用户关系存储在我的单词集合中:

或者我会将字数附加到用户集合中吗?

第二种方法的明显缺点是相同的单词将在不同的用户中使用,因此拥有单个单词集合将有助于降低数据大小。

谁能告诉我我应该在这里做什么?有没有我在文档中可能忽略的方法?