问题标签 [word-frequency]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

326 问题

0 投票

1 回答

552 浏览

mysql - 在 Rails 的数据库中计算词频

我有一个带有两列（名称和描述）的数据库的 Rails 应用程序。我想运行一个脚本，该脚本将在任一列中找到所有唯一单词，并根据它们出现的频率对它们进行排名。这是为了生成索引。

我明白我需要排除某些词（例如“the”和“a”），并且由于复数，计数可能不完美。但我很高兴在后期处理中手动处理这个，我只是在寻找一个基本的脚本，它会给我所有的单词和它们的频率。

有没有人有任何代码可以做到这一点或任何指导如何去做？

2012-07-09T04:15:45.863

0 投票

1 回答

1209 浏览

php - 计算多个文件中的词频

这是我为找出文件中不同单词的频率而实现的代码。这是有效的。

现在我想做的是，假设有 10 个文本文件。我想计算所有 10 个文件中单词的词频，即如果我想在所有 10 个文件中找到单词“stack”的频率，即单词堆栈在所有文件中出现了多少次。然后会对所有不同的单词执行此操作。

我已经为单个文件完成了它，但不知道如何将它扩展到多个文件。谢谢你的帮助，对不起我的英语不好

php word word-frequency

2012-08-09T06:11:02.377

0 投票

2 回答

6500 浏览

java - Solr 中的词频

我正在尝试使用 solr 获取单词的频率。当我给出这个查询时：

solr 给了我这样的频率；

但是当我数单词的时候；我发现 word2 的实际计数是 13。Solr 将字段中的相同单词计数为 1。

例如;

字段文本包括；word2 word5 word7 word9 word2. Solr 不返回 word2 的计数 2，而是返回 1。它为下面两个句子的 word2 的计数返回 1；

所以频率返回错误。我已经检查了方面字段，但没有找到合适的参数。我该如何解决它，以便它在句子中计算相同的单词？

编辑：schema.xml 的相关部分：

java solr word-frequency

2012-10-23T13:28:42.597

0 投票

2 回答

2229 浏览

java - 计算java中多个文件/文档中的词频

我想在java中计算多个文件/文档的词频。

例如

所以，我想计算每个文件的词频：

我有一种方法可以读取单词file，然后将其存储<wordname, worcount>在LinkedHashMap. 尽管如此，它会计算所有文件的特定单词的频率，但我想分别计算每个文件的单词频率。

有没有人有任何解决方案？

然后，我写了这个：

但是，它不打印任何东西。

java words word-frequency

2012-11-21T12:24:41.183

0 投票

3 回答

2464 浏览

api - 使用搜索引擎获取词频

有没有什么好的服务可以告诉我一个单词出现的网页数量？

我需要这个来计算归一化谷歌距离。几年前有谷歌网络搜索 API，人们可以调用它并获取事件和搜索结果（我实际上并不需要）。

这个网络搜索 API 现在已经被谷歌自定义搜索 API 取代，但是这个服务的成本对于我的目的来说太高了。

必应搜索 API 和 Yahoo! BOSS Search API 也不是一个选项，因为它们最多只返回 50 个搜索结果，而不是对单词出现的估计。

已经在互联网上进行了相当多的搜索，但我无法找到任何能提供我想要的信息的东西。

感谢您的任何建议。

api word search-engine frequency word-frequency

2012-11-26T16:43:23.470

0 投票

1 回答

556 浏览

prolog - Prolog，大文本中单词的频率

给定一个相当长的文本，我需要找出某个单词出现了多少次。就像夏洛克小说一样，如果我输入夏洛克，给我 200 次或类似的东西。

到目前为止，我知道如何使用我实现的此功能读取列表，发布在下面。我感谢所有的帮助，不知道下一步该做什么或如何做。

read_list(L) :- read(N), N \= end_of_file -> L = [N|Ns], !, read_list(Ns) ; L = [] 。

谢谢你。

prolog word-frequency

2012-11-27T20:27:00.443

0 投票

1 回答

192 浏览

python - 词频统计奇怪的结果

在我的语料库上进行词频计数时，结果似乎不准确（我感觉不是最常见的词，频率计数只有一两个）并且一些结果显示'as over\xe2'和'\xad' . 任何人都可以帮忙吗？

代码最初是荷兰语，这是未翻译的代码：

python word-frequency

2013-01-24T11:57:06.907

0 投票

2 回答

3876 浏览

python - Python中1Gb文本文件的词频计算

我正在尝试计算大小为 1.2 GB 的文本文件的字频，大约 2.03 亿字。我正在使用以下 Python 代码。但它给了我一个记忆错误。有什么解决办法吗？

这是我的代码：

这是错误，我收到了：

python word-frequency

2013-02-03T15:51:16.437

0 投票

2 回答

765 浏览

matlab - 使用 MATLAB 绘制词频图

我有一个包含大约 1000 万个唯一单词的大型文本文件，它们在两列中出现频率，如下所示：

我想绘制一个图表，Y 轴为频率，X 轴为单词。我使用了“加载”命令，但它似乎不起作用。我收到以下错误：

关于如何绘制图表的任何解决方案？

matlab import frequency word-frequency

2013-02-04T07:33:02.430

0 投票

3 回答

739 浏览

sql - 在庞大的数据集中存储词频

我正在研究文档聚类问题，为此我需要获取文档数据集的词频。

目前，我正在使用一种简单的方法：我创建一个单词表，并添加与数据集包含的文档数量一样多的列，获得类似

这种方法，即使有点慢，也适用于小型数据集（包含少于 100 个文档）。问题是现在我必须处理巨大的文件，每个文件包含 700 多个文件，我觉得必须有更聪明的方法来处理它：问题是，我想不出其他任何东西。

所以，问题是：如何有效地跟踪每个文档的词频？

PS：考虑到每个文档的单词数或数据集大小都是未知的，但合理的上限应该是每个文档 2000 个单词，每个数据集 2000 个文档。

sql word-frequency

2013-02-26T15:55:57.080

1 2 3 4 5 6 7 8 9 10

问题标签 [word-frequency]

Reference