问题标签 [zipf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
469 浏览

python - 如何计算文本中词频的最佳 zipf 分布

对于家庭作业,我必须绘制文本的词频并将其与最佳zipf分布进行比较。

根据对数日志图中的排名绘制文本的计数词频似乎工作正常。

但是我在计算最佳 zipf 分布时遇到了麻烦。结果应如下所示:

一种

我不明白计算直线的方程式是什么样的zipf

zipf法律的德国维基百科页面上,我发现了一个似乎有效的方程式

b

但是没有引用来源,所以我不明白常数的1.78来源。

我使用此脚本的结果如下所示:

我的 zipf 发行版

但我只是不确定最佳zipf分布是否计算正确。如果是这样,最优zipf分布不应该在某一点穿过 X 轴吗?

编辑:如果有帮助,我的文本有 2440400 个标记和 27491 种类型

0 投票
1 回答
51 浏览

python - 基于 ZIPF 分布在数据集上生成缺失值

目前,我想观察缺失值对我的数据集的影响。我将数据点 (10, 20, 90 %) 替换为缺失值并观察影响。下面这个函数就是把某个百分比的数据点替换为缺失的。

我的问题是,我想根据 zipf 分布/低功耗/长尾替换缺失值。例如,我有一个包含 10 列(5 列分类数据和 5 列数值数据)的数据集。我想根据 zipf 法替换 5 列分类上的一些数据点,左侧的列比右侧的缺失更多。

我使用 Python 来完成这项任务。

我在这个链接中看到了关于 zipf 分发的 Scipy 手册:https ://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.zipf.html但它仍然对我没有多大帮助。

0 投票
1 回答
171 浏览

java - 如何在 Java 中正确使用 Apache 公共数学库中的 ZipfDistribution?

我想根据遵循 Zipf 分布的单词(来自字典)创建一个数据源(用 Java 编写)。所以我来到了Apache commons库的ZipfDistributionNormalDistribution。不幸的是,关于如何使用这些类的信息很少。我试图做一些测试,但我不确定我是否以正确的方式使用它。我只关注每个构造函数的文档中所写的内容。但结果似乎并不“分布均匀”。

输出

0 投票
1 回答
40 浏览

python - 为什么我在这个 Python 程序中得到一个 TypeError?

这段代码给了我以下错误:
TypeError: list indices must be integers or slices, not str
我该如何解决这个问题?我将不胜感激。

0 投票
1 回答
91 浏览

python - 无法绘制 Zipf 的分布图

我是 python 和机器学习的新手。我想为文本文件绘制 Zipf 的分布图。但是我的代码给出了错误。以下是我的python代码

上面的代码给出了以下错误:count, bins, ignored = plt.hist(s[s<50], 50, normed=True)

TypeError:'dict_values'和'int'的实例之间不支持'<'

0 投票
0 回答
117 浏览

python - 使用 Zipf 概率分布从给定集合生成固定大小的数据

我需要使用 zipf、几何等离散概率分布从给定集合生成数据集。

例如,假设给定一组元素 A=(1,2,3,4,5),我需要生成一个大小为 100 的数据集,这样;

- 数据集由 A 的元素组成

- 元素 (1,2,3,4,5) 根据 zipf 分布分布在数据集中,偏斜为 2。

我可以使用下面的代码创建具有 zipf 分布的固定大小的数据集。但是我无法指定数据集的元素。

0 投票
1 回答
320 浏览

python - 如何将 zipf 曲线添加到词频条形图中?

我有一个(count, term)已按降序排序的元组列表count(即,一个术语在本文档中出现的次数),我将数据绘制为如上。现在假设我想证明术语的分布违反计算语言学中的 Zipf 定律,我可以在不改变 x 轴的情况下将 Zipf 曲线 (f = c / rank) 添加到该图中吗?如何?

0 投票
2 回答
299 浏览

python - 如何查找文件中十个最常用单词的频率?

我正在 Python 上编写一个函数,该函数将文本文件的名称(作为字符串)作为输入。该函数应首先确定每个单词在文件中出现的次数。稍后,我将制作一个条形图,显示文件中最常见的十个单词的频率,每个条形旁边是第二个条形,其高度是 Zipf 定律预测的频率。我已经有一些图表代码,但我需要帮助来查找文本文件中最常见的单词。

我被困在这里,我试图在列表中找到最常见的字符串,但我不知道从哪里开始,以下是我尝试过的:

我还想添加以下代码,因为它被建议帮助

0 投票
2 回答
120 浏览

python - 如何在 Python 中编辑图形(齐夫定律)

我需要帮助制作一个条形图,显示文件中十个最常见单词的频率。每个条旁边是第二条,其高度是 Zipf 定律预测的频率。(例如,假设最常见的词出现 100 次。齐夫定律预测第二最常见的词应该出现大约 50 次(是最常见的一半),第三最常见的词应该出现大约 33 次(三分之一和最常见的一样频繁),第四个最常见的词出现大约 25 次(最常见的四分之一),依此类推)。

该函数将文本文件的名称(作为字符串)作为输入。

代码以这种格式打印前十个单词及其频率(例如,我使用了《了不起的盖茨比》一书):

0 投票
0 回答
23 浏览

python - Word2Vec 和类似的:当您的数据分布不是对数对数线性时,是否可以使用 zipf 概率进行负采样?

我有不遵循类似 zipf 分布的经验数据,这意味着秩和频率之间的频率表的简单对数图远不接近线性。我仍在尝试使用这些数据开发嵌入。使用 Keras 的 tf.keras.preprocessing.sequence.make_sampling_table 之类的东西进行负采样有什么问题吗?