问题标签 [zipf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

25 问题

0 投票

0 回答

90 浏览

word2vec - 为什么“[UNK]”这个词在 word2vec 词汇表中排在第一位？

如果词汇表是从频率较高的单词到频率较低的单词排序，则将“[UNK]”放在开头意味着它出现最多。但是如果“[UNK]”不是最常见的词怎么办？我应该根据它的频率把它放在词汇表的另一个地方吗？

我在做本教程时发现了这样的问题-> https://www.tensorflow.org/tutorials/text/word2vec

当我使用函数 tf.random.log_uniform_candidate_sampler 进行负采样时，具有低标记（sg 0,1,2 ...）的负样本将被采样最多。如果“[UNK]”是词汇表中的第一个（或使用填充时为第二个），这意味着它具有标记 0（或使用填充时为 1），那么“[UNK]”将被大量采样为负样本。如果“[UNK]”经常发生，那没有问题，但如果没有怎么办？那么它应该收到更高的令牌，不是吗？

word2vec zipf

0 投票

0 回答

12 浏览

zipf - 如何从最不流行的数字（最小概率）到最流行的数字生成 zipf 数字？

我找到了这个生成 zipf 随机数的 python 代码，如何更改它以生成从最小概率（从 zipf 尾部）到最大概率的数字？

ZipfGenerator 类：

zipf

0 投票

0 回答

17 浏览

text - 如何评估文本语料库的质量？

我收集了来自不同领域和在线资源的文本数据，为我的研究目的创建了一个单语文本语料库。但是，我对如何评估单语文本语料库的质量和接受度感到困惑。我研究了几篇文章后发现，齐夫定律是其中一种方法，我已经这样做了。但是，我想知道我可以使用哪些其他方法或技术来证明语料库的质量，以便人们可以将语料库用于统计研究目的。

text corpus zipf

0 投票

0 回答

18 浏览

python - Python 中的 Zipf 分布

使用https://numpy.org/doc/stable/reference/random/generated/numpy.random.zipf.html作为参考，我玩过'a'值> 1。我的问题是，目的是什么在确定分布时的“a”值？到目前为止，这是我编写的代码：

这给了我一个结果：

如果我使'a'值更大，数字'1'的频率会增加更多。数学如何计算a'值？

谢谢！

什里曼

python zipf

0 投票

1 回答

45 浏览

python - 查找 zipf 分布的“a”值

我发现这个 python 函数可以根据“a”值和“大小”值生成 zipf 分布，其中大小类似于频率表中的元素总数：https ://numpy.org/doc/stable/参考/随机/生成/numpy.random.zipf.html

现在，假设我为 'a' = 1.6 和 size = '30' 运行此函数。我使用 python 的字典数据结构来存储我的频率表，这就是它的样子：

键代表元素 1,2,3,4,12,13,16,65,152,531，值代表它们各自的频率。

有没有办法通过查看字典来知道“a”值？我要问的是，假设有一本像我上面写的那样的字典。它是从某个值生成的。我不知道 a 值是什么，但我知道字典包含什么。根据字典元素的频率，有没有办法计算“a”值？例如，像一个公式？

[编辑]

这是我尝试过的东西。使用 KL 散度，我计算使用 2 个连续元素生成的值。公式是

我将此公式应用于任何两个连续元素，并在最后找到总和。我将这个总和除以字典的总频率并得到一个“a”值。但是，此“a”值永远不会与原始“a”值匹配。

谢谢！

python statistics zipf

1 2 3 4 5 6 7 8 9 10

问题标签 [zipf]

word2vec - 为什么“[UNK]”这个词在 word2vec 词汇表中排在第一位？

zipf - 如何从最不流行的数字（最小概率）到最流行的数字生成 zipf 数字？

text - 如何评估文本语料库的质量？

python - Python 中的 Zipf 分布

python - 查找 zipf 分布的“a”值

Reference