问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
13583 浏览

python-2.7 - Remove fullstop, commas, quotation from list in Python

I have a python code for word frequency count from a text file. The problem with the program is that it takes fullstop into account hence altering the count. For counting word i've used a sorted list of words. I tried to remove the fullstop using

but i get error as

Any help would be appreciated :)

0 投票
1 回答
11832 浏览

sql - Word count for all the words appearing in a column in SQL Server 2008

I have a table called 'ticket_diary_comment' with a column called 'comment_text'. This column is populated with text data. I would like to get the frequency of all the words occurring in this entire column. Ex:

What I want:

Notice that I have also removed the stop words in the output. I know calculating the frequency of a particular word is not difficult but I am looking for something that counts all the words appearing in a column removing the stop words.

I would appreciate any kind of help on this issue. I would also like to mention that I have to apply this query on a big-ish dataset (about 1 TB), so performance is a concern.

0 投票
2 回答
1077 浏览

r - 获取语​​料库中字符向量元素的数量

我的目标是使用 R 进行基于词典的情感分析!

我有两个字符向量。一个用正面词,一个用负面词。例如

我现在有一个包含数千篇新闻文章的语料库,我想知道每篇文章,我的向量 pos 和 neg 在文章中有多少元素。

例如(不确定语料库功能如何在这里工作,但你明白了:我的语料库中有两篇文章)

我想得到这样的东西:

另一件好事是,如果我能为每篇文章获得以下信息:

(pos 词数 - neg 词数)/(文章总词数)

非常感谢你!!

编辑:

@Victorp:这似乎不起作用

我得到的矩阵看起来不错:

但是当我执行您的命令时,每个文档都会得到零!

这是为什么??

0 投票
2 回答
2364 浏览

c++ - 链表词频和排序 C++

我正在编写一个程序,它从文本文件中读取单词并将所有这些单词放在一个链表中。该文件没有标点符号,只有单词。我还想将链表与预加载的黑名单进行比较,黑名单也是链表。

我已经完成的是我可以从文件中加载链接列表,打印链接列表,检查大小,计算一个单词在文件中出现的频率,而不是打印低于指定频率的单词,并且我还能够将所有单词格式化为小写以便更好地处理。

我遇到的问题是让代码正确,以便它只打印一个具有多个频率的单词的出现。因此,如果单词“the”出现 20 次,我不希望它在下一次出现时打印“the <1>”然后打印“the <2>”,清除“the <20>”我只是希望它打印一次“<20>”

我正在发布我的加载文件功能、打印功能和插入字功能,这些都是class wordCloud().

下面是代码:

我注意到,如果我放previous = NULL之前free(),我的程序不会崩溃,也不会出现任何 dll 内存处理错误。事实上,我可以free()完全取出,它似乎工作得很好。我只是不知道这是否是正确的方法。在我看来,如果我只是将一个节点指向 NULL<,它不一定会删除内存中的数据。free()我只是对不使用或delete()终止节点感到不安。如果我错了,请纠正我,或者请直接指出我的权利。

差不多,这有什么问题:

我可能会犯这个错误,但基本上我只需要找到插入列表中的每个单词的频率,然后删除包含该单词的多个节点,直到只留下频率计数最高的节点才能打印。我正在努力做到这insertWordDistinct(string word)一点。只是不知道该怎么做。

0 投票
4 回答
5476 浏览

java - 如何按频率对单词进行排序

我获取一个输入文本文件,将其转换为数组,对数组进行排序,然后获取每个单词的频率。我不知道如何根据它们的频率从最高到最低对它们进行排序,而不导入很多东西(这是我想要做的):

这会以未排序的顺序返回具有频率的单词,例如:

等等

我希望将其排序为:

0 投票
0 回答
1024 浏览

python - 进行特征聚集/求和的方法?

IE - 将最不频繁或信息丰富的二元组频率计数组合在一起。

EG - 如果我有一个序列的字母对频率计数,那么将相似特征合并在一起的好方法是什么。(例如:“KR”和“RK”成为一个单一的特征等等,或者将所有计数为0的对组合在一起......)。

我知道 scikit learn 有一种叫做“ward 的凝聚聚类”的东西,但这似乎是针对视觉数据/像素的,我对文本数据(蛋白质序列和生物信息学)感兴趣。如果有更直接的方法将特征连接在一起,我宁愿避免聚类。(我缺乏背景,之前没有做过聚类,特征分析对我们很重要)。谢谢!

0 投票
1 回答
154 浏览

python - 从列表中获取中频词并通过网络抓取 Python 中的 Indo Wordnet 获取它们的同义词

我是 Python 的新手,对于一个项目,我需要使用一个已经包含单词频率的单词表语料库,并且必须获得中频单词。这个特定的语料库不包含每列的标题。我要做的是让他得到高频词和低频词,并摆脱它们。我已经尝试过这段代码,但失败了。

list1 = open('C:\Python27\bengali_wordlist_full.txt', 'r').read()

列表 2=[]

这段代码给了我降序的频率。但并没有给我所有这些。而且我不知道如何以我想要的方式使用它们。这件作品没有用。

接下来我需要通过网络抓取来从 Indo wordnet 中获取同义词。我不知道该怎么做。这是一个双语项目,我还没有弄清楚解码系统。因此,unicode。

有人可以帮忙吗?

0 投票
2 回答
74 浏览

python - 得到一个中频单词

我有一个包含数字、英语单词和孟加拉语单词的单词列表,在另一列中我有它们的频率。这些列没有标题。我需要频率在 5-300 之间的单词。这是我正在使用的代码。它不工作。

这给了我一个语法错误。

有人可以帮忙吗?

0 投票
1 回答
1563 浏览

python - 返回 CountVectorizer 中对 scikit learn 中的特定功能具有非零条目的行的索引

我一直在搜索 Python 的 sklearn 包的文档。

我用我的语料库创建了一个经过拟合和转换的 CountVectorizer 对象。

我正在寻找一个函数,它可以为某些特定列返回具有非零条目的所有行的索引。

因此,如果我的 CountVectorizer 中的行由音乐评论组成,而列由特征组成(例如,有一列用于计数单词“lyrics”),那么 sci kit-learn 中是否有一个函数可以返回包含这个词的音乐评论的索引?

我查看了该inverse_transform(X)功能,它没有执行此功能。

我怀疑我不是第一个对这个功能感兴趣的人。

sklearn 中是否存在这样的功能,如果没有,是否有其他对类似程序感兴趣的人提出了如何实现此功能的好方法?

提前致谢。

更新:

我最好的解决方案涉及迭代列数(在我的例子中,我有 100 个特征):

但这看起来很浪费,因为它是迭代的并且范围必须是硬编码的,并且它为稀疏列返回空列表。

0 投票
1 回答
1115 浏览

r - 词频对列表到 R 中的矩阵中

我有一个格式如下的大型数据集,其中每一行都有一个文档,编码为 word:freqency-in-the-document,用空格分隔;行可以是可变长度:

例如,在第一个文档中,“aword”出现了 3 次。我最终想做的是创建一个小型搜索引擎,对匹配查询的文档(格式相同)进行排名;我虽然关于使用 TfIdf 和 tm 包(基于本教程,它要求数据采用 TermDocumentMatrix 的格式:http: //anythingbutrbitrary.blogspot.be/2013/03/build-search-engine-in- 20 分钟或 .html)。否则,我只会在文本语料库上使用 tm 的 TermDocumentMatrix 函数,但这里的问题是我已经以这种格式索引了这些数据(我宁愿使用这些数据,除非格式确实是陌生的,并且不能转换)。

到目前为止,我尝试的是导入行并拆分它们:

我想我会把这样的东西放在一个循环中:

并以某种方式将配对值放入一个数组中,然后运行一个循环,通过从 word:freq 对中获取适当的值来填充矩阵(预填充零:matrix(0,x,​​y))(在本身是构造矩阵的好主意吗?)。但是这种转换方式似乎不是一个好方法,列表越来越复杂,我仍然不知道如何达到可以填充矩阵的地步。

我(认为我)最终需要的是这样的矩阵:

然后我可以将其转换为 TermDocumentMatrix 并开始学习本教程。我有一种感觉,我在这里遗漏了一些非常明显的东西,我可能找不到一些东西,因为我不知道这些东西叫什么(我已经在谷歌上搜索了一天,主题是“术语文档向量/数组/对”、“二维数组”、“列表成矩阵”等)。

将这样的文档列表放入术语文档频率矩阵的好方法是什么?或者,如果使用内置函数解决方案过于明显或可行:我上面描述的格式的实际术语是什么,其中有这些术语:频率对在一行上,每一行都是一个文档?