“word-frequency”的相关标签问题

0 投票

2 回答

13583 浏览

python-2.7 - Remove fullstop, commas, quotation from list in Python

I have a python code for word frequency count from a text file. The problem with the program is that it takes fullstop into account hence altering the count. For counting word i've used a sorted list of words. I tried to remove the fullstop using

but i get error as

Any help would be appreciated :)

python-2.7 word-frequency

2014-02-19T10:28:47.430

0 投票

1 回答

11832 浏览

sql - Word count for all the words appearing in a column in SQL Server 2008

I have a table called 'ticket_diary_comment' with a column called 'comment_text'. This column is populated with text data. I would like to get the frequency of all the words occurring in this entire column. Ex:

What I want:

Notice that I have also removed the stop words in the output. I know calculating the frequency of a particular word is not difficult but I am looking for something that counts all the words appearing in a column removing the stop words.

I would appreciate any kind of help on this issue. I would also like to mention that I have to apply this query on a big-ish dataset (about 1 TB), so performance is a concern.

2014-02-21T22:38:55.620

0 投票

2 回答

1077 浏览

r - 获取语料库中字符向量元素的数量

我的目标是使用 R 进行基于词典的情感分析！

我有两个字符向量。一个用正面词，一个用负面词。例如

我现在有一个包含数千篇新闻文章的语料库，我想知道每篇文章，我的向量 pos 和 neg 在文章中有多少元素。

例如（不确定语料库功能如何在这里工作，但你明白了：我的语料库中有两篇文章）

我想得到这样的东西：

另一件好事是，如果我能为每篇文章获得以下信息：

(pos 词数 - neg 词数)/(文章总词数)

非常感谢你！！

编辑：

@Victorp：这似乎不起作用

我得到的矩阵看起来不错：

但是当我执行您的命令时，每个文档都会得到零！

这是为什么？？

r word-count sentiment-analysis word-frequency lexicon

2014-02-25T14:43:27.380

0 投票

2 回答

2364 浏览

c++ - 链表词频和排序 C++

我正在编写一个程序，它从文本文件中读取单词并将所有这些单词放在一个链表中。该文件没有标点符号，只有单词。我还想将链表与预加载的黑名单进行比较，黑名单也是链表。

我已经完成的是我可以从文件中加载链接列表，打印链接列表，检查大小，计算一个单词在文件中出现的频率，而不是打印低于指定频率的单词，并且我还能够将所有单词格式化为小写以便更好地处理。

我遇到的问题是让代码正确，以便它只打印一个具有多个频率的单词的出现。因此，如果单词“the”出现 20 次，我不希望它在下一次出现时打印“the <1>”然后打印“the <2>”，清除“the <20>”我只是希望它打印一次“<20>”

我正在发布我的加载文件功能、打印功能和插入字功能，这些都是class wordCloud().

下面是代码：

我注意到，如果我放previous = NULL之前free()，我的程序不会崩溃，也不会出现任何 dll 内存处理错误。事实上，我可以free()完全取出，它似乎工作得很好。我只是不知道这是否是正确的方法。在我看来，如果我只是将一个节点指向 NULL<，它不一定会删除内存中的数据。free()我只是对不使用或delete()终止节点感到不安。如果我错了，请纠正我，或者请直接指出我的权利。

差不多，这有什么问题：

我可能会犯这个错误，但基本上我只需要找到插入列表中的每个单词的频率，然后删除包含该单词的多个节点，直到只留下频率计数最高的节点才能打印。我正在努力做到这insertWordDistinct(string word)一点。只是不知道该怎么做。

c++sorting linked-list word-frequency word-cloud

2014-03-03T08:31:19.583

0 投票

4 回答

5476 浏览

java - 如何按频率对单词进行排序

我获取一个输入文本文件，将其转换为数组，对数组进行排序，然后获取每个单词的频率。我不知道如何根据它们的频率从最高到最低对它们进行排序，而不导入很多东西（这是我想要做的）：

这会以未排序的顺序返回具有频率的单词，例如：

等等

我希望将其排序为：

java sorting word-frequency

2014-03-19T19:10:57.443

0 投票

0 回答

1024 浏览

python - 进行特征聚集/求和的方法？

IE - 将最不频繁或信息丰富的二元组频率计数组合在一起。

EG - 如果我有一个序列的字母对频率计数，那么将相似特征合并在一起的好方法是什么。（例如：“KR”和“RK”成为一个单一的特征等等，或者将所有计数为0的对组合在一起......）。

我知道 scikit learn 有一种叫做“ward 的凝聚聚类”的东西，但这似乎是针对视觉数据/像素的，我对文本数据（蛋白质序列和生物信息学）感兴趣。如果有更直接的方法将特征连接在一起，我宁愿避免聚类。（我缺乏背景，之前没有做过聚类，特征分析对我们很重要）。谢谢！

python machine-learning scikit-learn bioinformatics word-frequency

2014-04-02T12:42:08.150

0 投票

1 回答

154 浏览

python - 从列表中获取中频词并通过网络抓取 Python 中的 Indo Wordnet 获取它们的同义词

我是 Python 的新手，对于一个项目，我需要使用一个已经包含单词频率的单词表语料库，并且必须获得中频单词。这个特定的语料库不包含每列的标题。我要做的是让他得到高频词和低频词，并摆脱它们。我已经尝试过这段代码，但失败了。

list1 = open('C:\Python27\bengali_wordlist_full.txt', 'r').read()

列表 2=[]

这段代码给了我降序的频率。但并没有给我所有这些。而且我不知道如何以我想要的方式使用它们。这件作品没有用。

接下来我需要通过网络抓取来从 Indo wordnet 中获取同义词。我不知道该怎么做。这是一个双语项目，我还没有弄清楚解码系统。因此，unicode。

有人可以帮忙吗？

python word-frequency

2014-04-09T10:22:03.530

0 投票

2 回答

74 浏览

python - 得到一个中频单词

我有一个包含数字、英语单词和孟加拉语单词的单词列表，在另一列中我有它们的频率。这些列没有标题。我需要频率在 5-300 之间的单词。这是我正在使用的代码。它不工作。

这给了我一个语法错误。

有人可以帮忙吗？

python word-frequency

2014-04-10T07:43:04.057

0 投票

1 回答

1563 浏览

python - 返回 CountVectorizer 中对 scikit learn 中的特定功能具有非零条目的行的索引

我一直在搜索 Python 的 sklearn 包的文档。

我用我的语料库创建了一个经过拟合和转换的 CountVectorizer 对象。

我正在寻找一个函数，它可以为某些特定列返回具有非零条目的所有行的索引。

因此，如果我的 CountVectorizer 中的行由音乐评论组成，而列由特征组成（例如，有一列用于计数单词“lyrics”），那么 sci kit-learn 中是否有一个函数可以返回包含这个词的音乐评论的索引？

我查看了该inverse_transform(X)功能，它没有执行此功能。

我怀疑我不是第一个对这个功能感兴趣的人。

sklearn 中是否存在这样的功能，如果没有，是否有其他对类似程序感兴趣的人提出了如何实现此功能的好方法？

提前致谢。

更新：

我最好的解决方案涉及迭代列数（在我的例子中，我有 100 个特征）：

但这看起来很浪费，因为它是迭代的并且范围必须是硬编码的，并且它为稀疏列返回空列表。

python scikit-learn word-frequency

2014-04-18T22:40:24.013

0 投票

1 回答

1115 浏览

r - 词频对列表到 R 中的矩阵中

我有一个格式如下的大型数据集，其中每一行都有一个文档，编码为 word:freqency-in-the-document，用空格分隔；行可以是可变长度：

例如，在第一个文档中，“aword”出现了 3 次。我最终想做的是创建一个小型搜索引擎，对匹配查询的文档（格式相同）进行排名；我虽然关于使用 TfIdf 和 tm 包（基于本教程，它要求数据采用 TermDocumentMatrix 的格式：http: //anythingbutrbitrary.blogspot.be/2013/03/build-search-engine-in- 20 分钟或 .html）。否则，我只会在文本语料库上使用 tm 的 TermDocumentMatrix 函数，但这里的问题是我已经以这种格式索引了这些数据（我宁愿使用这些数据，除非格式确实是陌生的，并且不能转换）。

到目前为止，我尝试的是导入行并拆分它们：

我想我会把这样的东西放在一个循环中：

并以某种方式将配对值放入一个数组中，然后运行一个循环，通过从 word:freq 对中获取适当的值来填充矩阵（预填充零：matrix(0,x,y)）（在本身是构造矩阵的好主意吗？）。但是这种转换方式似乎不是一个好方法，列表越来越复杂，我仍然不知道如何达到可以填充矩阵的地步。

我（认为我）最终需要的是这样的矩阵：

然后我可以将其转换为 TermDocumentMatrix 并开始学习本教程。我有一种感觉，我在这里遗漏了一些非常明显的东西，我可能找不到一些东西，因为我不知道这些东西叫什么（我已经在谷歌上搜索了一天，主题是“术语文档向量/数组/对”、“二维数组”、“列表成矩阵”等）。

将这样的文档列表放入术语文档频率矩阵的好方法是什么？或者，如果使用内置函数解决方案过于明显或可行：我上面描述的格式的实际术语是什么，其中有这些术语：频率对在一行上，每一行都是一个文档？

r matrix information-retrieval tm word-frequency

2014-04-20T14:50:33.757

问题标签 [word-frequency]

Reference