问题标签 [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1108 浏览

json - solrj QueryResponse getTermsResponse 返回 null

我正在尝试从 solrj QueryResponse 对象中获取 TermsResponse 对象,但它似乎不起作用。我正在使用 scala,但我也会对一个有效的 java 示例感到满意。

首先,我设置了术语向量查询,它看起来正在工作:

该查询返回一个 QueryResponse 对象,其 toString 看起来是一个 JSON 对象。该对象包括术语向量信息(术语、频率等)作为 JSON 对象的一部分。

但是当我这样做时,我总是得到一个空对象:

此功能是否已弃用?

如果是这样,从 QueryResponse 检索结构的最佳方法是什么?转换成 JSON?其他一些来源指向使用 response.get("termVector") 但这似乎已被弃用。

有任何想法吗?

谢谢

0 投票
1 回答
386 浏览

database - 设计用于词频和文本分析的数据库

我有一堆文章,我想做词频和趋势分析。

文章标有日期、作者、主题和主题。我想使用这些标签对数据进行切片,以便我可以获得用于特定作者(或作者组)、主题或主题的最常用词。总体和随着时间的推移(趋势)。

我将如何设计这个数据库(关系型或其他)还是应该创建一个数据立方体?

0 投票
1 回答
3636 浏览

algorithm - 在大量文本中查找最常用短语的高效算法

我正在考虑编写一个程序来为我收集大量文本中最常见的短语。如果将问题简化为仅查找单词,那么就像将每个新单词存储在哈希图中然后增加每次出现的计数一样简单。但是对于短语,将句子的每个排列存储为键似乎是不可行的。

基本上,问题被缩小到弄清楚如何从足够大的文本中提取每个可能的短语。计算短语然后按出现次数排序变得微不足道。

0 投票
1 回答
137 浏览

regex - 如何解析括号以总结python 3中的词频

我有一个给定行的单词及其频率的输入,但是,我想要单词频率的总数。我知道有很多解决方案可以从整个文件中计算词频,但是我的输入在每一行周围都有括号,在每个单词周围都有括号。我无法提取单词并计数,因为每行的单词数量不同。任何帮助将不胜感激!

样本输入:

我一直在尝试的代码:

我也尝试过使用:

但仍然没有结果

因为有括号和圆括号,所以这段代码不起作用——解包的值太多。如果有人可以提供帮助,我将不胜感激!

0 投票
2 回答
1165 浏览

python - 如何计算分词列表中的中文词频?

我正在使用python 2.7。我想计算中文单词的频率。我如何使用我的标记化列表来做到这一点?我想在下一步中找到句子的位置。因此,希望我可以计算单词频率,并在同一时间给我每个单词的起点和终点。

我试图从输入文件中计算词频,这与我的标记化无关。但这也给了我错误的结果。对于计数器部分,它向我显示: Counter({u'\u7684': 1}) ,但我的预期结果是 Counter({'的': 27})

0 投票
1 回答
123 浏览

python - 如何在文本文件中查找单词?

我正在编写一个 Python 程序,我需要计算文本文件中每个单词的数量。

0 投票
2 回答
50086 浏览

python - 无法使用灵活类型 plt.hist 执行 reduce

我有一个包含 1000 多个元素及其各自频率的数据集。我需要绘制前 10 个出现元素的直方图。
我做了:

并得到这个错误:

任何想法??我的数据如下所示:

0 投票
1 回答
698 浏览

python - Python中的Levenshtein距离循环

我有一组参考词(拼写正确),我需要一个用户输入的词。使用 levenshtein 距离将输入单词与参考列表进行比较,我需要从参考列表中返回成本最低的单词。此外,该参考列表按频率排序,因此较高的频率出现在顶部。如果两个词的距离相同,则返回频率较高的词。“NWORDS”是我按频率排序的参考列表。“候选人”是用户输入的词。

代码:

0 投票
1 回答
1197 浏览

normalization - 比较频率数据和 zipf / rank 数据

多年来,我多次想使用质量不同的频率列表(字符、单词、n-gram 等),但从未想出如何将它们一起使用。

当时我直觉认为只有排名而没有其他数据的列表应该是有用的。从那时起,我了解了Zipf 定律幂律。虽然我数学不是很好,所以我并不完全理解一切。

我在 StackOverflow 和 CrossValidated 中发现了一些似乎相关的问题。但我要么没有正确理解它们,要么它们缺乏有用的答案。

我想要的是一种方法来规范一个包含完整频率数据的列表和一个只有排名数据的列表,以便我可以一起使用这两个列表。

例如带有频率数据的单词列表:

还有一个只有排名数据的单词列表:

如何将频率数据和排名数据归一化为可用于比较等的相同类型的值?

(这个问题中的示例列表只是示例。假设从程序员无法控制的外部来源获得更长的列表。)

0 投票
3 回答
9311 浏览

python-2.7 - Python词频统计程序

我在 python 中创建了一个简单的字数统计程序,它读取一个文本文件,计算字频并将结果写入另一个文件。问题是当单词重复时,程序会写入同一个单词的初始计数和最终计数。例如,如果一个单词“hello”重复说 3 次,程序会在输出中写入 3 个 hello 实例:

词 - 频率计数

你好 - 1

你好 - 2

你好 - 3

代码是:

任何帮助,将不胜感激。我对python非常陌生。