问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
552 浏览

mysql - 在 Rails 的数据库中计算词频

我有一个带有两列(名称和描述)的数据库的 Rails 应用程序。我想运行一个脚本,该脚本将在任一列中找到所有唯一单词,并根据它们出现的频率对它们进行排名。这是为了生成索引。

我明白我需要排除某些词(例如“the”和“a”),并且由于复数,计数可能不完美。但我很高兴在后期处理中手动处理这个,我只是在寻找一个基本的脚本,它会给我所有的单词和它们的频率。

有没有人有任何代码可以做到这一点或任何指导如何去做?

0 投票
1 回答
1209 浏览

php - 计算多个文件中的词频

这是我为找出文件中不同单词的频率而实现的代码。这是有效的。

现在我想做的是,假设有 10 个文本文件。我想计算所有 10 个文件中单词的词频,即如果我想在所有 10 个文件中找到单词“stack”的频率,即单词堆栈在所有文件中出现了多少次。然后会对所有不同的单词执行此操作。

我已经为单个文件完成了它,但不知道如何将它扩展到多个文件。谢谢你的帮助,对不起我的英语不好

0 投票
2 回答
6500 浏览

java - Solr 中的词频

我正在尝试使用 solr 获取单词的频率。当我给出这个查询时:

solr 给了我这样的频率;

但是当我数单词的时候;我发现 word2 的实际计数是 13。Solr 将字段中的相同单词计数为 1。

例如;

字段文本包括;word2 word5 word7 word9 word2. Solr 不返回 word2 的计数 2,而是返回 1。它为下面两个句子的 word2 的计数返回 1;

所以频率返回错误。我已经检查了方面字段,但没有找到合适的参数。我该如何解决它,以便它在句子中计算相同的单词?

编辑:schema.xml 的相关部分:

0 投票
2 回答
2229 浏览

java - 计算java中多个文件/文档中的词频

我想在java中计算多个文件/文档的词频。

例如

所以,我想计算每个文件的词频:

我有一种方法可以读取单词file,然后将其存储<wordname, worcount>LinkedHashMap. 尽管如此,它会计算所有文件的特定单词的频率,但我想分别计算每个文件的单词频率。

有没有人有任何解决方案?


然后,我写了这个:

但是,它不打印任何东西。

0 投票
3 回答
2464 浏览

api - 使用搜索引擎获取词频

有没有什么好的服务可以告诉我一个单词出现的网页数量?

我需要这个来计算归一化谷歌距离。几年前有谷歌网络搜索 API,人们可以调用它并获取事件和搜索结果(我实际上并不需要)。

这个网络搜索 API 现在已经被谷歌自定义搜索 API 取代,但是这个服务的成本对于我的目的来说太高了。

必应搜索 API 和 Yahoo! BOSS Search API 也不是一个选项,因为它们最多只返回 50 个搜索结果,而不是对单词出现的估计。

已经在互联网上进行了相当多的搜索,但我无法找到任何能提供我想要的信息的东西。

感谢您的任何建议。

0 投票
1 回答
556 浏览

prolog - Prolog,大文本中单词的频率

给定一个相当长的文本,我需要找出某个单词出现了多少次。就像夏洛克小说一样,如果我输入夏洛克,给我 200 次或类似的东西。

到目前为止,我知道如何使用我实现的此功能读取列表,发布在下面。我感谢所有的帮助,不知道下一步该做什么或如何做。

read_list(L) :- read(N), N \= end_of_file -> L = [N|Ns], !, read_list(Ns) ; L = [] 。

谢谢你。

0 投票
1 回答
192 浏览

python - 词频统计奇怪的结果

在我的语料库上进行词频计数时,结果似乎不准确(我感觉不是最常见的词,频率计数只有一两个)并且一些结果显示'as over\xe2'和'\xad' . 任何人都可以帮忙吗?

代码最初是荷兰语,这是未翻译的代码:

0 投票
2 回答
3876 浏览

python - Python中1Gb文本文件的词频计算

我正在尝试计算大小为 1.2 GB 的文本文件的字频,大约 2.03 亿字。我正在使用以下 Python 代码。但它给了我一个记忆错误。有什么解决办法吗?

这是我的代码:

这是错误,我收到了:

0 投票
2 回答
765 浏览

matlab - 使用 MATLAB 绘制词频图

我有一个包含大约 1000 万个唯一单词的大型文本文件,它们在两列中出现频率,如下所示:

我想绘制一个图表,Y 轴为频率,X 轴为单词。我使用了“加载”命令,但它似乎不起作用。我收到以下错误:

关于如何绘制图表的任何解决方案?

0 投票
3 回答
739 浏览

sql - 在庞大的数据集中存储词频

我正在研究文档聚类问题,为此我需要获取文档数据集的词频。

目前,我正在使用一种简单的方法:我创建一个单词表,并添加与数据集包含的文档数量一样多的列,获得类似

这种方法,即使有点慢,也适用于小型数据集(包含少于 100 个文档)。问题是现在我必须处理巨大的文件,每个文件包含 700 多个文件,我觉得必须有更聪明的方法来处理它:问题是,我想不出其他任何东西。

所以,问题是:如何有效地跟踪每个文档的词频?

PS:考虑到每个文档的单词数或数据集大小都是未知的,但合理的上限应该是每个文档 2000 个单词,每个数据集 2000 个文档。