power-law - 检验合成数据的幂律假设

Question

我正在尝试使用最大似然估计器来检查某些合成数据集中是否存在幂律。我正在遵循本文中描述的方法. 在这种方法中，观察向量 x 被馈送到代码中，然后代码告诉置信水平（p 值），馈送的数据将来自幂律分布。对于单个数据集，这非常简单。但是，现在我尝试将相同的代码用于稍微不同的情况。所以我正在对某个过程进行许多（比如 100 个）随机模拟，每个模拟都返回一个长度为 1000 的向量 x。然后我对所有这 100 个实现的分布进行平均，以找到平均 x，其分布在 log-log 上看起来大致直线阴谋。要使用上面的代码找到 p 值，我必须提供与平均分布相对应的观察向量。但是，在这里我遇到了问题。最初我只是将平均分布乘以 1000，并取该乘积中最接近的整数作为某个值的观察频率。但有时某个值出现在 100 个实现中的少数几个中，然后在我构造向量时根本不会出现相应的值。因此，我放弃了分布尾部的所有值。有没有更好的方法从这种平均分布计算 p 值来检验幂律假设？

score 0 · Accepted Answer

总而言之，您正在尝试从一百个数据实现中获得最佳拟合？由于数据是模拟的，我想噪声在所有模拟中都是恒定的，并且每个模拟中的数字相同，所以每个实现都具有相同的权重？在这种情况下，将它们放在一起并根据参数计算每个 x 的 ay（假设您只是将功率图转换为 y=mx+ c）m 和 c 并根据样本中的噪声询问，概率是多少的模拟值。将所有 x 组合在一起，然后对不同的 m 和 c 值重复（可能需要查看 Gibbs 采样）。然后，您可以使用给您最高概率的 m 和 c 的值。

power-law - 检验合成数据的幂律假设

1 回答 1

Related

Reference