问题标签 [word-frequency]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

326 问题

0 投票

1 回答

252 浏览

mysql - group_concat 和该记录中每个单词的频率

这是我的数据库。

表：

表格中的数据

目前我正在使用以下 sql 查询：

这让我看起来

但我希望它看起来像这样

2013-03-16T22:35:27.843

0 投票

3 回答

4724 浏览

linux - awk：来自一个文本文件的词频，如何输出到 myFile.txt？

给定一个带有空格分隔单词的 .txt 文件，例如：

和awk 函数：

我在控制台中得到以下输出：

如何进入打印到 myFile.txt ？ 我实际上有 300.000 行和近 200 万字。最好将结果输出到文件中。

编辑：使用的答案（@Sudo_O）：

linux shell awk frequency-analysis word-frequency

2013-03-24T13:18:43.993

0 投票

1 回答

142 浏览

awk - awk：CJK 字符有什么问题？＃韩国人

给定一个 .txt 文件，其中包含空格分隔的单词，例如：

和awk 函数：

我在控制台中得到以下输出，这对韩语单词无效（对英语和中文空格分隔的单词有效）

如何让它适用于韩语单词？ 注意：我实际上有 300.000 行和近 200 万字。

编辑：使用的答案：

awk cjk word-frequency

2013-03-24T14:40:20.383

0 投票

1 回答

788 浏览

awk - Awk: Characters-frequency from one text file?

Given a multilangual .txt files such as:

I counted space-separated words' word-frequency using this Awk function :

Getting the elegant :

How to change it to count characters-frequency ?

EDIT: For Characters-frequency, I used (@Sudo_O's answer):

For word-frequency, use:

awk character cjk frequency-analysis word-frequency

2013-03-24T17:57:51.537

0 投票

5 回答

372 浏览

c - 我如何编写这个涉及 Unicode 的 C 代码？

我有一个类似的问题，询问哪种语言最适合这项任务，Perl 就是答案。但我仍然很好奇如何用 C 解决这个问题。

我想给这个程序一个大的文本文件，里面装满了从小说、报纸、网页中提取的德语文本样本。我想要一个文本文件中所有单词的频率列表，按最常见的单词排序。我需要 3000 个最常见的德语单词列表。

如果这只是一个 ASCII 问题，那么这对我来说就是小菜一碟。整个上午都在阅读有关 Unicode 的内容后，我真的很惊讶它是一个雷区。

这是如何在 C 中完成的？

我有一个朋友用 Python 编写了一些东西，但他还是个初学者，他的代码在一个 1.4 MB 的文本文件上花了大约 30 分钟。

c word-frequency

2013-03-31T21:47:45.443

0 投票

1 回答

238 浏览

nlp - WordNet 词频使用

是否有可能在 wordnet 或任何其他方式中知道最常用的词义。例如，“商品”一词可能更多地用于表示善意而不是“产品”。或者“钥匙”这个词更多地用于指代真正的钥匙而不是“解决方案”。例如，这个问题的关键是......

有这样的吗？？

nlp wordnet word-frequency

2013-03-31T23:59:58.047

0 投票

2 回答

566 浏览

c - C编程频率计数器输入/输出

我编写了一个简单的 C 程序，它读取一个文件并生成一个包含每个单词及其频率的表格。

该程序有效，我已经能够在 Linux 上运行的终端中获得显示的输出，但是，我不确定如何让生成的显示生成一个包含词频输出的 .csv 文件（因为它是在终端）。

以下是我的程序各部分的代码片段，以便您更好地理解它的结构。

如何将终端的输出发送到 .csv？任何帮助将不胜感激，谢谢。

c csv word-frequency

2013-04-15T13:48:34.507

0 投票

1 回答

445 浏览

python - 如何从整个文件的列表中计算词频？

我有一个包含三列的文件（由 \t 分隔；第一列是单词，第二列是引理，第三列是标签）。有些行仅由点或逗号组成。

假设用户搜索引理“in”。我想要“in”的频率和“in”之前和之后的引理频率。所以我想要整个语料库中“union”、“danger”、“restriction”和“the”的频率。结果应该是：

我怎么做？我尝试使用lemma_counter = {}，但它不起作用。

我对python语言没有经验，所以如果我有任何错误，请纠正我。

python list nlp word-frequency

2013-04-28T16:57:36.313

0 投票

1 回答

2463 浏览

r - R：在 R 中的文档术语矩阵中查找与文档中的术语“欺诈”相关的前 10 个术语

我有一个由年份命名的 39 个文本文件的语料库 - 1945.txt、1978.txt.... 2013.txt。

我已将它们导入 R 并使用 TM 包创建了一个文档术语矩阵。我正在尝试调查从 1945 年到 2013 年，与 term'fraud' 相关的单词多年来的变化情况。所需的输出将是一个 39 x 10/5 的矩阵，其中年份作为行标题，前 10 或 5 个术语作为列。

任何帮助将不胜感激。

提前致谢。

我的 TDM 的结构：

r word-frequency term-document-matrix

2013-05-22T15:31:49.933

0 投票

1 回答

491 浏览

indexing - SphinxSearch：是否可以从实时索引构建词频？

我知道可以使用从源生成的索引建立一个停用词的列表rotate。

这也可以用实时索引来完成吗？如果是，如何？

indexing sphinx word-frequency

2013-06-15T10:52:24.040

1 2 3 4 5 6 7 8 9 10

问题标签 [word-frequency]

Reference