问题标签 [sampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 从链式哈希表中有效地挑选一个随机元素?
只是为了练习(而不是作为家庭作业),我一直在尝试解决这个问题(CLRS,第 3 版,练习 11.2-6):
假设我们在大小为 m 的哈希表中存储了 n 个键,通过链接解决冲突,并且我们知道每个链的长度,包括最长链的长度 L。描述一个从哈希表的键中均匀随机选择一个键并在预期时间 O(L * (1 + m/n)) 内返回它的过程。
到目前为止,我认为每个键被返回的概率是 1/n。如果我们尝试获取一个介于 1 到 n 之间的随机值 x,并尝试先按桶排序,然后沿着桶中的链依次找到第 x 个键,则需要 O(m) 才能找到正确的桶通过一个一个桶和 O(L) 时间来获得链中的正确密钥。
video - 从视频流中选择以给定采样间隔 OPENCV 分隔的所有图像
我正在将 OpenCV 用于一个项目,但我完全是初学者。
我的大容量存储库中有一个视频文件,并且想编写一个方法来访问由输入中给定采样间隔分隔的视频流的所有帧。
视频可以是多种格式(AVI – WMV – MPEG-2 – MPEG-4)。
我在想该方法应该像这样工作:
您能帮我提供一些代码,或者至少说明使用 OpenCV 方法实现这种方法的方法吗?
r - R采样绕过randomForest 32因子限制
我正在尝试解决因素的 32 个级别的 randomForest 包限制。
我在一个因子变量中有一个包含 100 个级别的数据集。
我编写了以下代码,以查看使用带替换的采样会是什么样子,以及需要多少次尝试才能选择特定百分比的级别。
我正在争论的是是否需要更换样品。
我在想:
- 获取 100 个因子中的 32 个样本,
- 使用这些行来运行 randomForest,
- 用 randomForest 预测测试集和
- 重复此过程 (a) 3(不更换)或 (b) 10-15 次(更换)。
- 取 3 或 10-15 个预测值,找到平均值并将其用作最终预测值。
我很好奇是否有人尝试过这样的事情,或者我是否违反了任何规则(引入偏见等),或者是否有人有任何建议。
注意:我也在 Stats-Overflow / Cross-Validated 上交叉发布了这个问题。
c++ - 从 C++/Ubuntu 中的音频输入录制原始音频
什么是简单地将原始音频值从笔记本电脑上的内置麦克风实时记录到文本文件的最简单方法。我想在 C++ 中工作,但是任何可以实现这一点的语言/方法也可以。
audio - 在不同的音频文件中搜索相同的短样本
考虑多个(至少两个)不同的音频文件,例如几个不同的混音或混音。我天真地说,必须有可能检测到两个或多个文件中几乎相等的样本,尤其是人声,当然只有这样,如果人声样本没有被修改、拉伸、音调、混响太多等等
那么用什么样的算法或技术可以做到这一点呢?比方说,用户会尝试在所有文件中尽可能设置时间标记,这些时间标记描述要比较的数据窗口,包含大概相等的声音、人声等。
我知道没有直接的方法,尝试以任何方式直接比较 wav 数据是有用的。但是,即使我有频域数据(例如来自 FFT),我也必须使用一种比较算法,这种算法通过时间尺度来改变比较窗口,因为我不能假设我想找到的样本是时间同步的在所有文件中。
在此先感谢您的任何建议。
ruby - 随机采样数组的唯一子集
如果我有一个数组:
如何随机选择数组的子集,使每个子集的元素都是唯一的?也就是说,a
可能的子集是:
我无法生成所有可能的子集,因为 a 的实际大小非常大,所以有很多很多子集。目前,我正在使用“随机游走”的想法——对于 a 的每个元素,我会“抛硬币”并在硬币正面朝上时将其包括在内——但我不确定这是否真的均匀地采样了空间。感觉它偏向中间,但这可能只是我在做模式匹配的想法,因为会有更多中等大小的可能性。
我是否使用了正确的方法,或者我应该如何随机抽样?
(我知道这更像是一个与语言无关的“数学”问题,但我觉得这不是真正的 Mathoverflow 材料——我只需要一个实用的答案。)
matlab - Matlab - 多维数据的分层采样
我想以分层的方式将语料库划分为训练和测试集。
观察数据点排列在一个矩阵 A
中
矩阵的每一列代表一个不同的特征。
在 Matlab 中,cvpartition(A,'holdout',p)
函数需要A
是一个向量。如何使用矩阵执行相同的操作,A
即结果集的每个特征的分布与原始语料库中的分布大致相同。
c - 读音频rlp
我正在尝试通过 Fez Panda 2 从麦克风获取声音样本。我正在使用 rlp 来实现这一点。这是我的代码:
问题是我需要浮点值而不是 unsigned char,因为我正在对这些声音样本执行 fft。所以我需要修改来为我提供浮点值。有任何想法吗?
touchscreen - Tablet PC 上笔位置的恒定和高采样率
对于一项实验(对人类受试者的培训研究),我试图以恒定且高(例如,100 Hz)的采样率在平板电脑(Thinkpad X61t,Windows 7)上记录笔位置。不幸的是,我们目前只能获得可变的采样间隔(15-16ms,有一些相当长的异常值)——可能与屏幕的刷新率和一些测量噪声有关。我们的程序员已经设法在以前的设置(X60t,Windows 7)上获得恒定的采样率(100Hz),但似乎无法在当前系统上工作(相同的 EXE 文件在两个系统)。我们不确定两个系统上是否安装了相同的驱动程序(他在第一个系统上工作时没有跟踪这一点),但我们在过去几周尝试了不同的驱动程序和系统(例如,Windows XP)。
我非常感谢您对此提供的任何帮助 - 对驱动程序的尝试建议、编程技巧(该软件是用 C 语言编写的)、对问题的解释......
ios - iOS 音调生成
我正在查看这个关于 iOS 上声音生成的示例,因为我需要做类似的事情,但有些部分我不明白,我希望有人可以帮助我。
在这部分代码中:
我真的不明白这theta += theta_increment;
部分是干什么用的。对我来说,在 for 循环中做这样的事情更有意义:
知道为什么那行不通吗?另外,我不知道这部分代码的用途是什么:if (theta > 2.0 * M_PI)
因此也非常欢迎对此进行任何解释。