问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
742 浏览

objective-c - 支持1词频的标签云算法

我正在寻找在 Objective-C 中制作标签云,并且正在尝试找到一个好的算法。我尝试了几个,起初似乎效果很好,但它们都有一个缺陷:如果出现次数最少的单词和出现频率最高的单词一样频繁,那么整个过程就有缺陷。

示例(Google 中的第一个算法):

在这里,如果 min = 5、max = 5、maxPercent = 300、minPercent = 75 和 count = 5,那么您有:

所以我的问题是,是否有任何标签云算法考虑到这一点,并且能够计算每个单词的字体大小,即使最大频率等于最小频率?

0 投票
5 回答
5111 浏览

java - 我如何利用哈希表来保存单词和使用频率?

我现在很困惑。我应该编写一个使用哈希表的程序。哈希表包含单词及其使用频率。“Word”类包含一个计数器和字符串。如果这个词已经在表中,那么它的频率就会增加。我一直在研究如何做到这一点,但只是迷路了。我需要指出正确的方向。任何帮助都会很棒。

0 投票
2 回答
338 浏览

regex - 计算单词频率,然后对它们进行排序

我正在编写一个 perl 脚本,其中 a 应该处理文本,然后为字典提供单词频率,然后对字典进行排序。该文本是 Edgar Poe 的“Golden Bug”的摘录,目的是计算所有单词的频率。但我做错了,因为我没有得到输出。我什么时候做错了?谢谢。

0 投票
4 回答
1382 浏览

c++ - 词频统计

在面试前,我遇到了这样一个问题:

给定一个字符串,由单个空格分隔的单词组成,按照它们在字符串中出现的次数降序打印出单词。

例如,“abb”的输入字符串将生成以下输出:

首先,我想说的是,输入字符串是由单字母词还是多字母词组成还不是很清楚。如果是前者,那可能很简单。

这是我的想法:

我可以获得输入字符串中每个单字母单词的频率统计数据,并且可以对其进行排序(使用 QuickSort 或其他)。但是count数组排序后,如何获取与count关联的单字母单词,以便以后成对打印出来呢?

如果输入字符串由多个字母组成,我打算使用 amap<const char *, int>来跟踪频率。但同样,如何对地图的键值对进行排序?

问题在 C 或 C++ 中,欢迎提出任何建议。

谢谢!

0 投票
3 回答
3760 浏览

c - C(非 C++)中的词频统计

给定一个字符串,由单个空格分隔的单词组成,按照它们在字符串中出现的次数降序打印出单词。

例如,“ab bc bc”的输入字符串将生成以下输出:

如果使用像地图这样的 C++ 数据结构,这个问题将很容易解决。但如果这个问题只能用普通的旧 C 来解决,那看起来要困难得多。

我应该在这里使用什么样的数据结构和算法?请尽可能详细。我在 DS 和 Algo 方面很弱。:-(

0 投票
4 回答
31434 浏览

python - 有效计算字符串中的词频

我正在解析一长串文本并计算每个单词在 Python 中出现的次数。我有一个可以工作的函数,但我正在寻找关于是否有方法可以提高效率(在速度方面)以及是否有 python 库函数可以为我做到这一点的建议,所以我没有重新发明轮子?

您能否提出一种更有效的方法来计算出现在长字符串中的最常见单词(通常在字符串中超过 1000 个单词)?

另外,将字典排序到第一个元素是最常用词、第二个元素是第二个最常用词等的列表中的最佳方法是什么?

0 投票
5 回答
16317 浏览

c# - 计算每个单词的频率

有一个包含一些文本文件的目录。如何计算每个文件中每个单词的频率?单词是指一组字符,可以包含字母、数字和下划线字符。

0 投票
3 回答
626 浏览

string - 为什么我用 Perl 编写的词频计数器示例无法产生有用的输出?

我对 Perl 很陌生,我正在尝试编写一个词频计数器作为学习练习。

但是,在处理之后,我无法找出下面代码中的错误。这是我的代码:

它既不是打印“这里”,也不是单词。在这一点上,我并不担心优化,尽管在这个方向上的任何输入也将不胜感激。

0 投票
5 回答
6526 浏览

java - 使用二叉树跟踪词频

我目前正在学习二叉树和二叉搜索树,我正在进行的一项练习涉及读取文本文件,按字母顺序将每个单词存储在二叉树中,并使用不同的方法遍历树。以下是具体规格:

读入文本并构建包含文本中所有单词的二叉搜索树(按字母顺序),存储单词并在节点中记录单词的频率(每个单词在文本中出现的次数),并执行课堂上提到的树遍历。

我的问题是,当我将单词添加到树中时,如何跟踪它的频率?我们从来没有在课堂上讨论过相同的节点,所以我被困在这里。任何建议表示赞赏!

0 投票
1 回答
990 浏览

mysql - MySQL计算单词的频率

我希望能够计算特定列出现的单词频率。

如果我想计算匹配句子的频率,则此代码有效,但我需要它来搜索单个单词。