问题标签 [power-law]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python scipy stats pareto fit:它是如何工作的
...帮助和在线文档说函数 scipy.stats.pareto.fit 将要拟合的数据集和可选的 b(指数)、loc、比例作为变量。结果是三元组(指数,位置,比例)
从相同分布生成数据应该导致拟合找到用于生成数据的参数,例如(使用 python 3 colsole)
(在下面的代码行中省略了 python 控制台提示“>>>”)
然而这导致
(指数 1,应该是 1.5)和
结果是
(指数 1,应该是 1.1)和
(指数应为 4,loc 应为 2,比例应为 0.4)在
等在调用 fit 函数时给出另一个指数
总是返回这个指数
显而易见的问题是:我是否完全误解了这个 fit 函数的目的,它的使用方式是否有所不同,或者它只是被破坏了?
备注:在有人提到像 Aaron Clauset 的网页(http://tuvalu.santafe.edu/~aaronc/powerlaws/)上给出的专用功能比 scipy.stats 方法更可靠之前,应该使用它:可能是真的,但它们也非常非常非常非常耗时,并且对于 10000 个点的数据集,在普通 PC 上需要很多小时(可能是几天、几周、几年)。
编辑:哦:拟合函数的参数不是分布的指数而是指数负1(但这不会改变上述问题)
python - python情节和幂律拟合
我有以下列表:
我想用 python 绘制每个实体的频率并对其进行幂律分析。
但我不知道如何用 ylabel 频率和 xlabel 列表上的数字来绘制列表。
我想用频率创建一个字典并绘制字典的值,但是这样,我不能把数字放在 xlabel 上。
有什么建议吗?
python - 将幂律拟合到 Python 中的经验数据
我正在尝试使用powerlaw模块将幂律拟合到经验数据。我创建了以下遵循指数 2 的幂律分布的数据:
我期望拟合的幂律的指数为 2。但是所得的指数与理论值有很大的偏差:
您能否告知为什么会发生这种情况,或者指出我在这里做错了什么?
谢谢你的好意回答!
r - 将 pagerank 结果拟合到幂律分布
我已经计算了网站超链接网络(大约 1000 个节点)的 pagerank 值。我使用 igraph 包在 R 中完成了此操作。
我现在想获取前 10 个 pagerank 值,并根据幂律图可视化这些前 10 个网站,以了解它们在图中的位置。
我将如何获取这些结果并将它们与幂律图进行对比(例如,以说明哪些站点位于长尾下方)。
我只是想找出一个通用的公式或技术。
值如下:
r - KS 幂律检验
我尝试使用 Aaron Clauset、Cosma Rohilla Shalizi 和 MEJ Newman 在他们的论文“经验数据中的幂律分布”中概述的方法将幂律分布拟合到数据集。
我找到了可以与我自己的代码进行比较的代码,但我有点困惑其中一些来自哪里,到目前为止的故事是,
为了确定适合幂律拟合的 xmin,我们将每个可能的 xmin 拟合到该数据的幂律,然后计算相应的指数 (a),然后计算拟合的 KS 统计量 (D) 和观察到的数据,然后找到 xmin对应于 D 的最小值。如果计算如下,则 KS 统计量,
我不明白 cx 的来源,当然我们应该比较经验分布和计算分布之间的距离。类似于:
我想我只是错过了一些非常基本的东西,但请纠正我!
r - R中幂律参数的最小最大优化
假设当值大于 $x_{min}$ 时,数据集是从幂律分布中提取的。我想估计 R 中幂律分布的 $\alpha$ 和 $x_{min}$。
根据http://arxiv.org/abs/0706.1062:
$\hat\alpha=1+n[\sum\limits_{i=1}^n\ln\frac{x_i}{x_{min}}]^{-1}$(方程 16)
而 $\hat x_{min}$ 是 $x_{min}$ 最小化的值
$D=\max\limits_{x\geq x_{min}}|S(x) - P(x)|$ (方程 24)
其中 $P(x) = (\frac{x}{x_{min}})^{-\alpha+1}$,$S(x)$ 是数据的 ccdf,可以在R 使用1-ecdf(data)(x)
我如何进行这样的优化并在 R 中获得 $\alpha$ 和 $x_{min}$?
normalization - 比较频率数据和 zipf / rank 数据
多年来,我多次想使用质量不同的频率列表(字符、单词、n-gram 等),但从未想出如何将它们一起使用。
当时我直觉认为只有排名而没有其他数据的列表应该是有用的。从那时起,我了解了Zipf 定律和幂律。虽然我数学不是很好,所以我并不完全理解一切。
我在 StackOverflow 和 CrossValidated 中发现了一些似乎相关的问题。但我要么没有正确理解它们,要么它们缺乏有用的答案。
我想要的是一种方法来规范一个包含完整频率数据的列表和一个只有排名数据的列表,以便我可以一起使用这两个列表。
例如带有频率数据的单词列表:
还有一个只有排名数据的单词列表:
如何将频率数据和排名数据归一化为可用于比较等的相同类型的值?
(这个问题中的示例列表只是示例。假设从程序员无法控制的外部来源获得更长的列表。)
r - 根据原始数据创建幂律分布图
所以,我有一个原始数据,如果绘制成图表,应该形成幂律分布。我不太确定如何平滑图表。我可以在 Excel 中执行此操作,但我想在 R 中执行此操作。我有一个包含 2 列的数据框。一个叫做频率,另一个叫做比例。频率是文档中使用的单词的频率。比例是百分比。所以我想在 X 轴上绘制频率,在 Y 轴上绘制比例。我尝试了 barplot 和 ggplot。
调整空间后,条形图看起来很完美。但是由于某种原因,我只能在 Y 轴上显示数字,而不能在 X 轴上显示数字。
ggplot 没有那么流畅。
如果我将绘图转换为密度图,它将改变 Y 轴上的测量值。
如何绘制 X 和 Y,并保留所有测量标签?
和ggplot
这就是它在excel中的样子,这就是我想要的。
c++ - Boost 图形库 C++/幂律
我有一个带有 id、x 和 y 坐标的顶点向量,我想为我的顶点生成一个幂律图。Boost Library 图提供幂律plod_iterator()但我如何用我的顶点生成它。有人可以帮忙吗?