问题标签 [frequency-distribution]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 计算区间中数字频率的有效算法
我需要建立一个条形图来说明由线性同余方法确定的伪随机数的分布
在区间 [0,1]
例如:
我使用了这样的方法:
如果您知道解决此问题的另一种官方方法,那不是严格的,我将不胜感激。
c++ - 计算区间中数字频率的类
我需要建立一个条形图来说明由线性同余方法确定的伪随机数的分布
在区间 [0,1]
例如:间隔频率
我写过这样的程序
lcg.h:
lcg.cpp:
主.cpp:
它可以正确编译和 lint,但不想运行。我不知道我的程序有什么问题。函数 countFrequency 和 printFrequency 有问题。但我不知道是什么。也许你知道?
python - 转移分解分布以匹配更多聚合水平分布
我有什么本质上是分配问题。
我所拥有的: 我对人口普查区等小地理区域进行了观察。对于每一个,我都有四个不同年龄组的人数。每个区域都属于一个子区域。
现在,我知道小区域分布并不完全正确,因为我知道正确的分布——在更高的聚合级别、次区域级别和更精细的区域级别数据相加时,显示不同的组总数。
我想要什么: 我想调整我的区域级别,四组的分解分布,使其与已知正确的四个组的摘要级别分布一致,但保留区域级别的信号分布——即根据更粗略的数据对其进行调整,但不要将其扔出窗外。
那么,我想做的是将区域级人口计数转移到边缘,满足以下标准,前两个是最重要的(我意识到在满足所有这些方面需要权衡):
- 汇总后,它应与次区域总数相匹配。
- 调整不应改变道级人口。
- 现有的空间分布不应该有实质性的改变,而只是我根据新的次区域总数略微调整
- 理想情况下,调整应该是公平的——即调整不应该只是在少数记录上,而应该在每个区域内更加分散。
下面是模拟数据和占位符代码:
一、小面积数据:
subregion
并且,通过我们得到这个汇总:
(让我们获取每个组中每个子区域的目标份额)
第二,在次区域层面,小区域数据应该汇总到什么地方。
这些是次区域的“已知”分布。正是这些我希望调整区域级别的数据,以便在聚合区域时,它们大致匹配每个组中的这些区域总数。具体来说,总计grp4
为subregion A
26,215,但根据目标,应该是22,000grp4
,因此次区域 A 中的区域应该看到人员从其他一些组重新分类。
一个想法是在每个子区域内对区域进行采样,然后按照需要从一个垃圾箱转移到另一个垃圾箱的总人数按一定比例移动人员,尽管我不确定是否有一种聪明的方法可以满足上述标准.
引起我问题的主要是这确定了一种在各组之间重新分配人员以匹配次区域总数的方法,同时保持创纪录水平的总数,而不是完全抛弃预先存在的空间分布,我想将其保留为一个信号(但调整到现在已知的不同整体分布)。
一般而言,关于如何使详细分布适合更聚合的分布的任何想法,而不仅仅是采样区域和移动 x 人grp4 -> grp3
,grp2 -> grp1
以及现有分布和目标分布之间的差异是什么?
占位符代码
这个函数主要是在一个表中查找每个组中的区域份额,将该分布推送到每个区域,所以它除了设置数据绑定之外什么都不做。
python - 在分布中找到一组值的概率
我有两个分布(值集)并希望知道一个集合“适合”另一个集合的概率。像这样的东西:
我没有尝试任何东西(因为我对概率论的了解不够好)而且我几乎没有使用过 scipy。另外我不知道哪种分布可能合适,数据点是“每天的点击次数”(有点)。
编辑: dist
是上个月values
的点击次数/天,是当前月份的点击次数/天。尽管我缺乏概率论和数学知识,但希望这有助于澄清我正在努力实现的目标。:)
编辑 2:本月点击次数增加了 50%。考虑到上个月和当前月份每天的点击次数,这种增加是偶然的可能性有多大?
r - 术语文档矩阵或文档术语矩阵哪个更好?
我正在计算 R 3.2.2 中文本文档中唯一单词的频率。我现在已经将这么多文章折叠成一个单独的文本文档,并使用 package.json 构建到语料库中tm
。
那个文本文档中有 12000 个奇怪的术语。要继续进行矩阵运算,我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵?
我希望这取决于上下文。如果文档较少而词条较多,使用词条文档矩阵而不是文档词条矩阵是否更好。我只是想了解这背后的逻辑。所以,我希望不需要任何可重现的例子。任何建议将不胜感激。
提前致谢,
巴拉
python-2.7 - 如何从两个列表中计算相对频率
这是我的代码的输出:
我想弄清楚的是'a' wrt'x'的发生概率?这意味着我必须计算
如何计算所有可能的项目?例如。(b,7)
和((b,z),2)
所有。但是不需要像这样的情况 - (c,4) 和 ((b,z),2) 等。
r - 使用 R 创建 n 向频率表
我需要一些帮助来创建一个 n 向频率表。
我正在使用下面的代码:
VAR1、VAR2 和 VAR3 都是因子变量。通过这样做,我生成了下表:
但是由于 VAR2 和 VAR3 有几个类别,所以我得到了很多带有“0”的行,而我要删除这些行以保留在 VAR2 的哪个类别中,仅针对真正具有频率值的 VAR3 类别的频率,如下所示:
有谁知道如何做到这一点,要么通过对我首先创建的表进行子集化,要么使用另一个函数,该函数不返回每个 VAR2 类别中的所有 VAR3 级别,而只返回实际具有频率的那些?
r - R ggplot2绘制计数百分比曲线
我打算绘制它们的百分比曲线和两条阴影曲线作为它们的平均值。
ggplot2 密度图没有显示 Y 轴上的计数百分比。
这是一个类似的情节(代码可以在这里找到!)。
如何绘制宽度为 10 的箱的百分比“曲线”,范围从 x 轴上的范围值?
如何在每条曲线顶部添加一个小文本表示圆形#并使用不同来表示两个物种并使用阴影区域表示两个物种的平均值?
这是我可以在 R 中复制的数据集:
这是我尝试过的代码:
结果如下:
阴影区域似乎只是两条曲线的总和。请让我知道如何绘制每个物种的两条曲线的平均值。
python - Efficiently count word frequencies in python
I'd like to count frequencies of all words in a text file.
should return {'aaa':1, 'bbb': 2, 'ccc':1}
if the target text file is like:
I've implemented it with pure python following some posts. However, I've found out pure-python ways are insufficient due to huge file size (> 1GB).
I think borrowing sklearn's power is a candidate.
If you let CountVectorizer count frequencies for each line, I guess you will get word frequencies by summing up each column. But, it sounds a bit indirect way.
What is the most efficient and straightforward way to count words in a file with python?
Update
My (very slow) code is here: