问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
11022 浏览

php - php文本中最常用的词

我在 stackoverflow 上找到了下面的代码,它可以很好地找到字符串中最常见的单词。但是我可以排除对“a, if, you, have, etc”等常用词的计算吗?还是我必须在计数后删除元素?我该怎么做?提前致谢。

0 投票
1 回答
906 浏览

javascript - 编写一个计算词频的小书签

我想创建一个小书签来计算网页上的所有文本,然后在绝对定位的 div 中显示从最多到最少的结果。

我所做的每个谷歌搜索都在谈论计算表单或文本区域或已知 div id 中的单词总数。那不是我想要的。我想要每个 /w 出现在整个网页上的次数。

我知道足够多的 javascript 知道我不知道如何做到这一点。

0 投票
2 回答
1657 浏览

vb.net - 计算字符串中的词频(最重要的词),不包括关键字

我想计算字符串中单词(不包括某些关键字)的频率并将它们排序为 DESC。那么,我该怎么做呢?

在以下字符串中...

排除关键字在哪里

输出应该像

PS不!我不是在重新设计谷歌!:)

0 投票
2 回答
475 浏览

php - 如何替换和计算单词或单词序列的频率?

我需要做两件事,首先,找到一个给定的文本,它是最常用的单词单词序列(限于n)。例子:

Lorem * ipsum * dolor sit amet , consectetur adipiscing elit。Nunc auctor urna sed urna mattis nec interdum magna ullamcorper。Donec ut lorem eros,id rhoncus nisl。Praesent sodales lorem vitae sapien volutpat et accumsan lorem viverra。Proin lectus elit cursus ut feugiat ut,porta sit amet leo。Cras est nisl, aliquet quis lobortis sat amet , viverra non erat。Faucibus orci luctus et ultrices posuere cubilia Curae 的前庭前庭;整数 euismod scelerisque quam, et aliquet nibh dignissim at。Pellentesque ut elit内克。Etiam facilisis nisl eu mauris luctus in consequat libero volutpat。Pellentesque auctor, justo in suscipit mollis, erat justo sollicitudin ipsum , in cursus erat ipsum id turpis。在tincidunt hendrerit scelerisque。

(有些词我被省略了,但这是一个例子)。

我想结果是sat amet而不是sat and amet

关于如何开始的任何想法?

其次,我需要将给定文件中给定列表中匹配的所有单词或单词序列包装起来。

为此,我认为通过降低长度对结果进行排序,然后在替换函数中处理每个字符串,以避免如果我的列表中有另一个词,则将坐 amet包装起来。这是一个好方法吗?!

谢谢

0 投票
10 回答
85956 浏览

python - 使用python排序的词频计数

我必须使用 python 计算文本中的词频。我想把单词保存在字典里,并对每个单词进行计数。

现在,如果我必须根据出现次数对单词进行排序。我可以用同一个字典而不是使用一个新字典来做吗?它的键作为计数,单词数组作为值?

0 投票
3 回答
11933 浏览

search - 计算lucene索引中的词频

有人可以帮我找到所有 lucene 索引中的词频,
例如,如果 doc A 有 3 个词(B)而 doc C 有 2 个,我想要一种方法来返回 5,显示词的频率(B)在所有 lucene 索引中

0 投票
1 回答
20366 浏览

php - 计算文本中的词频?

可能重复:
php:对给定字符串中单词的实例进行排序和计数

我正在寻找一个 php 函数,它将字符串作为输入,将其拆分为单词,然后返回按每个单词的出现频率排序的单词数组。

实现这一点的算法最有效的方法是什么?

0 投票
1 回答
512 浏览

java - 最简单的工具(Windows 平台)爬网和保存单词?

我想抓取网页并保存关键字及其频率。例如,我想从 URL:http ://www.dmoz.org/Arts/ 抓取艺术类别,并保存一个单词列表及其频率。所以我想要以下输出

词频
电影 400
歌曲 100
杂志 120

实现这一目标的最简单方法是什么?任何语言的任何工具或库都会非常有帮助。

0 投票
2 回答
662 浏览

php - 如何找出一段文本中最常用的 2 个单词组合?

如何从一段文本中找出我最常用的两个单词是什么?换句话说,是否有一个在线或离线(或代码)工具,我可以在其中复制和粘贴文本,它会输出我最常用的两个词频,例如:

从最常用到最少:

“猫” 2.9% “她说” 1.8% “去” 1.2%

谢谢

0 投票
1 回答
116 浏览

java - java程序查找单词的分布数组

我想在文件的每一行中找到一个单词的频率。我想对文件中的每个单词都这样做。我在 java 中使用 BufferedReader 和 FileReader。