问题标签 [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - Remove fullstop, commas, quotation from list in Python
I have a python code for word frequency count from a text file. The problem with the program is that it takes fullstop into account hence altering the count. For counting word i've used a sorted list of words. I tried to remove the fullstop using
but i get error as
Any help would be appreciated :)
sql - Word count for all the words appearing in a column in SQL Server 2008
I have a table called 'ticket_diary_comment'
with a column called 'comment_text'
. This column is populated with text data. I would like to get the frequency of all the words occurring in this entire column. Ex:
What I want:
Notice that I have also removed the stop words in the output. I know calculating the frequency of a particular word is not difficult but I am looking for something that counts all the words appearing in a column removing the stop words.
I would appreciate any kind of help on this issue. I would also like to mention that I have to apply this query on a big-ish dataset (about 1 TB), so performance is a concern.
r - 获取语料库中字符向量元素的数量
我的目标是使用 R 进行基于词典的情感分析!
我有两个字符向量。一个用正面词,一个用负面词。例如
我现在有一个包含数千篇新闻文章的语料库,我想知道每篇文章,我的向量 pos 和 neg 在文章中有多少元素。
例如(不确定语料库功能如何在这里工作,但你明白了:我的语料库中有两篇文章)
我想得到这样的东西:
另一件好事是,如果我能为每篇文章获得以下信息:
(pos 词数 - neg 词数)/(文章总词数)
非常感谢你!!
编辑:
@Victorp:这似乎不起作用
我得到的矩阵看起来不错:
但是当我执行您的命令时,每个文档都会得到零!
这是为什么??
c++ - 链表词频和排序 C++
我正在编写一个程序,它从文本文件中读取单词并将所有这些单词放在一个链表中。该文件没有标点符号,只有单词。我还想将链表与预加载的黑名单进行比较,黑名单也是链表。
我已经完成的是我可以从文件中加载链接列表,打印链接列表,检查大小,计算一个单词在文件中出现的频率,而不是打印低于指定频率的单词,并且我还能够将所有单词格式化为小写以便更好地处理。
我遇到的问题是让代码正确,以便它只打印一个具有多个频率的单词的出现。因此,如果单词“the”出现 20 次,我不希望它在下一次出现时打印“the <1>”然后打印“the <2>”,清除“the <20>”我只是希望它打印一次“<20>”
我正在发布我的加载文件功能、打印功能和插入字功能,这些都是class wordCloud()
.
下面是代码:
我注意到,如果我放previous = NULL
之前free()
,我的程序不会崩溃,也不会出现任何 dll 内存处理错误。事实上,我可以free()
完全取出,它似乎工作得很好。我只是不知道这是否是正确的方法。在我看来,如果我只是将一个节点指向 NULL<,它不一定会删除内存中的数据。free()
我只是对不使用或delete()
终止节点感到不安。如果我错了,请纠正我,或者请直接指出我的权利。
差不多,这有什么问题:
我可能会犯这个错误,但基本上我只需要找到插入列表中的每个单词的频率,然后删除包含该单词的多个节点,直到只留下频率计数最高的节点才能打印。我正在努力做到这insertWordDistinct(string word)
一点。只是不知道该怎么做。
java - 如何按频率对单词进行排序
我获取一个输入文本文件,将其转换为数组,对数组进行排序,然后获取每个单词的频率。我不知道如何根据它们的频率从最高到最低对它们进行排序,而不导入很多东西(这是我想要做的):
这会以未排序的顺序返回具有频率的单词,例如:
等等
我希望将其排序为:
python - 进行特征聚集/求和的方法?
IE - 将最不频繁或信息丰富的二元组频率计数组合在一起。
EG - 如果我有一个序列的字母对频率计数,那么将相似特征合并在一起的好方法是什么。(例如:“KR”和“RK”成为一个单一的特征等等,或者将所有计数为0的对组合在一起......)。
我知道 scikit learn 有一种叫做“ward 的凝聚聚类”的东西,但这似乎是针对视觉数据/像素的,我对文本数据(蛋白质序列和生物信息学)感兴趣。如果有更直接的方法将特征连接在一起,我宁愿避免聚类。(我缺乏背景,之前没有做过聚类,特征分析对我们很重要)。谢谢!
python - 从列表中获取中频词并通过网络抓取 Python 中的 Indo Wordnet 获取它们的同义词
我是 Python 的新手,对于一个项目,我需要使用一个已经包含单词频率的单词表语料库,并且必须获得中频单词。这个特定的语料库不包含每列的标题。我要做的是让他得到高频词和低频词,并摆脱它们。我已经尝试过这段代码,但失败了。
list1 = open('C:\Python27\bengali_wordlist_full.txt', 'r').read()
列表 2=[]
这段代码给了我降序的频率。但并没有给我所有这些。而且我不知道如何以我想要的方式使用它们。这件作品没有用。
接下来我需要通过网络抓取来从 Indo wordnet 中获取同义词。我不知道该怎么做。这是一个双语项目,我还没有弄清楚解码系统。因此,unicode。
有人可以帮忙吗?
python - 得到一个中频单词
我有一个包含数字、英语单词和孟加拉语单词的单词列表,在另一列中我有它们的频率。这些列没有标题。我需要频率在 5-300 之间的单词。这是我正在使用的代码。它不工作。
这给了我一个语法错误。
有人可以帮忙吗?
python - 返回 CountVectorizer 中对 scikit learn 中的特定功能具有非零条目的行的索引
我一直在搜索 Python 的 sklearn 包的文档。
我用我的语料库创建了一个经过拟合和转换的 CountVectorizer 对象。
我正在寻找一个函数,它可以为某些特定列返回具有非零条目的所有行的索引。
因此,如果我的 CountVectorizer 中的行由音乐评论组成,而列由特征组成(例如,有一列用于计数单词“lyrics”),那么 sci kit-learn 中是否有一个函数可以返回包含这个词的音乐评论的索引?
我查看了该inverse_transform(X)
功能,它没有执行此功能。
我怀疑我不是第一个对这个功能感兴趣的人。
sklearn 中是否存在这样的功能,如果没有,是否有其他对类似程序感兴趣的人提出了如何实现此功能的好方法?
提前致谢。
更新:
我最好的解决方案涉及迭代列数(在我的例子中,我有 100 个特征):
但这看起来很浪费,因为它是迭代的并且范围必须是硬编码的,并且它为稀疏列返回空列表。
r - 词频对列表到 R 中的矩阵中
我有一个格式如下的大型数据集,其中每一行都有一个文档,编码为 word:freqency-in-the-document,用空格分隔;行可以是可变长度:
例如,在第一个文档中,“aword”出现了 3 次。我最终想做的是创建一个小型搜索引擎,对匹配查询的文档(格式相同)进行排名;我虽然关于使用 TfIdf 和 tm 包(基于本教程,它要求数据采用 TermDocumentMatrix 的格式:http: //anythingbutrbitrary.blogspot.be/2013/03/build-search-engine-in- 20 分钟或 .html)。否则,我只会在文本语料库上使用 tm 的 TermDocumentMatrix 函数,但这里的问题是我已经以这种格式索引了这些数据(我宁愿使用这些数据,除非格式确实是陌生的,并且不能转换)。
到目前为止,我尝试的是导入行并拆分它们:
我想我会把这样的东西放在一个循环中:
并以某种方式将配对值放入一个数组中,然后运行一个循环,通过从 word:freq 对中获取适当的值来填充矩阵(预填充零:matrix(0,x,y))(在本身是构造矩阵的好主意吗?)。但是这种转换方式似乎不是一个好方法,列表越来越复杂,我仍然不知道如何达到可以填充矩阵的地步。
我(认为我)最终需要的是这样的矩阵:
然后我可以将其转换为 TermDocumentMatrix 并开始学习本教程。我有一种感觉,我在这里遗漏了一些非常明显的东西,我可能找不到一些东西,因为我不知道这些东西叫什么(我已经在谷歌上搜索了一天,主题是“术语文档向量/数组/对”、“二维数组”、“列表成矩阵”等)。
将这样的文档列表放入术语文档频率矩阵的好方法是什么?或者,如果使用内置函数解决方案过于明显或可行:我上面描述的格式的实际术语是什么,其中有这些术语:频率对在一行上,每一行都是一个文档?