问题标签 [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - group_concat 和该记录中每个单词的频率
这是我的数据库。
表:
表格中的数据
目前我正在使用以下 sql 查询:
这让我看起来
但我希望它看起来像这样
linux - awk:来自一个文本文件的词频,如何输出到 myFile.txt?
给定一个带有空格分隔单词的 .txt 文件,例如:
和awk 函数:
我在控制台中得到以下输出:
如何进入打印到 myFile.txt ? 我实际上有 300.000 行和近 200 万字。最好将结果输出到文件中。
编辑:使用的答案(@Sudo_O):
awk - awk:CJK 字符有什么问题?#韩国人
给定一个 .txt 文件,其中包含空格分隔的单词,例如:
和awk 函数:
我在控制台中得到以下输出,这对韩语单词无效(对英语和中文空格分隔的单词有效)
如何让它适用于韩语单词? 注意:我实际上有 300.000 行和近 200 万字。
编辑:使用的答案:
awk - Awk: Characters-frequency from one text file?
Given a multilangual .txt files such as:
I counted space-separated words' word-frequency using this Awk function :
Getting the elegant :
How to change it to count characters-frequency ?
EDIT: For Characters-frequency, I used (@Sudo_O's answer):
For word-frequency, use:
c - 我如何编写这个涉及 Unicode 的 C 代码?
我有一个类似的问题,询问哪种语言最适合这项任务,Perl 就是答案。但我仍然很好奇如何用 C 解决这个问题。
我想给这个程序一个大的文本文件,里面装满了从小说、报纸、网页中提取的德语文本样本。我想要一个文本文件中所有单词的频率列表,按最常见的单词排序。我需要 3000 个最常见的德语单词列表。
如果这只是一个 ASCII 问题,那么这对我来说就是小菜一碟。整个上午都在阅读有关 Unicode 的内容后,我真的很惊讶它是一个雷区。
这是如何在 C 中完成的?
我有一个朋友用 Python 编写了一些东西,但他还是个初学者,他的代码在一个 1.4 MB 的文本文件上花了大约 30 分钟。
nlp - WordNet 词频使用
是否有可能在 wordnet 或任何其他方式中知道最常用的词义。例如,“商品”一词可能更多地用于表示善意而不是“产品”。或者“钥匙”这个词更多地用于指代真正的钥匙而不是“解决方案”。例如,这个问题的关键是......
有这样的吗??
c - C编程频率计数器输入/输出
我编写了一个简单的 C 程序,它读取一个文件并生成一个包含每个单词及其频率的表格。
该程序有效,我已经能够在 Linux 上运行的终端中获得显示的输出,但是,我不确定如何让生成的显示生成一个包含词频输出的 .csv 文件(因为它是在终端)。
以下是我的程序各部分的代码片段,以便您更好地理解它的结构。
如何将终端的输出发送到 .csv?任何帮助将不胜感激,谢谢。
python - 如何从整个文件的列表中计算词频?
我有一个包含三列的文件(由 \t 分隔;第一列是单词,第二列是引理,第三列是标签)。有些行仅由点或逗号组成。
假设用户搜索引理“in”。我想要“in”的频率和“in”之前和之后的引理频率。所以我想要整个语料库中“union”、“danger”、“restriction”和“the”的频率。结果应该是:
我怎么做?我尝试使用lemma_counter = {}
,但它不起作用。
我对python语言没有经验,所以如果我有任何错误,请纠正我。
r - R:在 R 中的文档术语矩阵中查找与文档中的术语“欺诈”相关的前 10 个术语
我有一个由年份命名的 39 个文本文件的语料库 - 1945.txt、1978.txt.... 2013.txt。
我已将它们导入 R 并使用 TM 包创建了一个文档术语矩阵。我正在尝试调查从 1945 年到 2013 年,与 term'fraud' 相关的单词多年来的变化情况。所需的输出将是一个 39 x 10/5 的矩阵,其中年份作为行标题,前 10 或 5 个术语作为列。
任何帮助将不胜感激。
提前致谢。
我的 TDM 的结构:
indexing - SphinxSearch:是否可以从实时索引构建词频?
我知道可以使用从源生成的索引建立一个停用词的列表rotate。
这也可以用实时索引来完成吗?如果是,如何?