问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
252 浏览

mysql - group_concat 和该记录中每个单词的频率

这是我的数据库。

表:

表格中的数据

目前我正在使用以下 sql 查询:

这让我看起来

但我希望它看起来像这样

0 投票
3 回答
4724 浏览

linux - awk:来自一个文本文件的词频,如何输出到 myFile.txt?

给定一个带有空格分隔单词的 .txt 文件,例如:

awk 函数

我在控制台中得到以下输出:

如何进入打印到 myFile.txt ? 我实际上有 300.000 行和近 200 万字。最好将结果输出到文件中。


编辑:使用的答案(@Sudo_O):

0 投票
1 回答
142 浏览

awk - awk:CJK 字符有什么问题?#韩国人

给定一个 .txt 文件,其中包含空格分隔的单词,例如:

awk 函数

我在控制台中得到以下输出,这对韩语单词无效(对英语和中文空格分隔的单词有效)

如何让它适用于韩语单词? 注意:我实际上有 300.000 行和近 200 万字。


编辑:使用的答案:

0 投票
1 回答
788 浏览

awk - Awk: Characters-frequency from one text file?

Given a multilangual .txt files such as:

I counted space-separated words' word-frequency using this Awk function :

Getting the elegant :

How to change it to count characters-frequency ?


EDIT: For Characters-frequency, I used (@Sudo_O's answer):

For word-frequency, use:

0 投票
5 回答
372 浏览

c - 我如何编写这个涉及 Unicode 的 C 代码?

我有一个类似的问题,询问哪种语言最适合这项任务,Perl 就是答案。但我仍然很好奇如何用 C 解决这个问题。

我想给这个程序一个大的文本文件,里面装满了从小说、报纸、网页中提取的德语文本样本。我想要一个文本文件中所有单词的频率列表,按最常见的单词排序。我需要 3000 个最常见的德语单词列表。

如果这只是一个 ASCII 问题,那么这对我来说就是小菜一碟。整个上午都在阅读有关 Unicode 的内容后,我真的很惊讶它是一个雷区。

这是如何在 C 中完成的?

我有一个朋友用 Python 编写了一些东西,但他还是个初学者,他的代码在一个 1.4 MB 的文本文件上花了大约 30 分钟。

0 投票
1 回答
238 浏览

nlp - WordNet 词频使用

是否有可能在 wordnet 或任何其他方式中知道最常用的词义。例如,“商品”一词可能更多地用于表示善意而不是“产品”。或者“钥匙”这个词更多地用于指代真正的钥匙而不是“解决方案”。例如,这个问题的关键是......

有这样的吗??

0 投票
2 回答
566 浏览

c - C编程频率计数器输入/输出

我编写了一个简单的 C 程序,它读取一个文件并生成一个包含每个单词及其频率的表格。

该程序有效,我已经能够在 Linux 上运行的终端中获得显示的输出,但是,我不确定如何让生成的显示生成一个包含词频输出的 .csv 文件(因为它是在终端)。

以下是我的程序各部分的代码片段,以便您更好地理解它的结构。

如何将终端的输出发送到 .csv?任何帮助将不胜感激,谢谢。

0 投票
1 回答
445 浏览

python - 如何从整个文件的列表中计算词频?

我有一个包含三列的文件(由 \t 分隔;第一列是单词,第二列是引理,第三列是标签)。有些行仅由点或逗号组成。

假设用户搜索引理“in”。我想要“in”的频率和“in”之前和之后的引理频率。所以我想要整个语料库中“union”、“danger”、“restriction”和“the”的频率。结果应该是:

我怎么做?我尝试使用lemma_counter = {},但它不起作用。

我对python语言没有经验,所以如果我有任何错误,请纠正我。

0 投票
1 回答
2463 浏览

r - R:在 R 中的文档术语矩阵中查找与文档中的术语“欺诈”相关的前 10 个术语

我有一个由年份命名的 39 个文本文件的语料库 - 1945.txt、1978.txt.... 2013.txt。

我已将它们导入 R 并使用 TM 包创建了一个文档术语矩阵。我正在尝试调查从 1945 年到 2013 年,与 term'fraud' 相关的单词多年来的变化情况。所需的输出将是一个 39 x 10/5 的矩阵,其中年份作为行标题,前 10 或 5 个术语作为列。

任何帮助将不胜感激。

提前致谢。

我的 TDM 的结构:

0 投票
1 回答
491 浏览

indexing - SphinxSearch:是否可以从实时索引构建词频?

我知道可以使用从源生成的索引建立一个停用词的列表rotate

这也可以用实时索引来完成吗?如果是,如何?