问题标签 [random-sample]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
31626 浏览

python - 带和不带放回的加权随机选择

最近我需要对列表中的元素进行加权随机选择,包括替换和不替换。虽然有一些众所周知且很好的非加权选择算法,还有一些用于不带替换的加权选择(例如对 resevoir 算法的修改),但我找不到任何好的带替换加权选择算法。我还想避免使用 resevoir 方法,因为我选择了列表的很大一部分,它小到足以保存在内存中。

有没有人对这种情况下的最佳方法有任何建议?我有自己的解决方案,但我希望找到更有效、更简单或两者兼而有之的方法。

0 投票
4 回答
3888 浏览

test-data - 示例数据创建工具(主要用于数据库)

我正在考虑一些数据库设计概念,并相信创建模拟我的应用程序的真实世界体积的示例数据将有助于巩固一些设计决策。

有谁知道创建示例数据的工具?如果可能的话,我正在寻找与数据库和平台无关的东西(从 MySQL 到 DB/2,从 Windows 到 UNIX),以便跨不同系统/架构测试设计。我正在设想一些您可以使用的工具:

  1. 指向数据库表( DSN 的某些配置等)
  2. 内省字段并基于字段...(点击或添加一些配置)
  3. 有一种表达如何创建样本数据的方法MySQL Sample Data Creator是我所设想的那种东西,但我认为他们会有更多的选择,比如提交频率,以便创建非常大的数据集......数百万或数十亿行...不要认为这个工具会扩展到我想要创建的数据量)
  4. 按下按钮即可(取决于您的参数,这可能需要很长时间)

有什么想法吗?当然,我可以编写一个应用程序来做到这一点,但它看起来很普通,我不应该重新发明轮子。

0 投票
10 回答
42330 浏览

linux - 从文件中随机选择行而不用 Unix 啜饮它

我有一个 10^7 行的文件,我想从文件中随机选择 1/100 行。这是我拥有的 AWK 代码,但它会预先删除所有文件内容。我的电脑内存无法处理这样的啜饮。还有其他方法吗?

0 投票
9 回答
207022 浏览

sql - 从查询结果中选择随机结果样本

这个问题询问有关在 SQL Server 上获取随机(ish)记录样本的问题,答案是使用TABLESAMPLE. Oracle 10 中是否有等价物?

如果没有,是否有从查询集中获取随机结果样本的标准方法?例如,如何从正常返回数百万的查询中获取 1,000 行随机行?

0 投票
7 回答
4513 浏览

perl - 如何使用 Perl 从文件中准确获取 n 个随机行?

跟进这个问题,我需要从文件(或)n中随机获取准确的行。stdin这将类似于heador tail,除了我想要一些来自中间的。

现在,除了使用链接问题的解决方案循环文件之外,n在一次运行中获得精确行的最佳方法是什么?

作为参考,我试过这个:

$ratio我想要的线条的粗略百分比在哪里。例如,如果我想要 10 行中的 1 行:

但是,这并没有给我一个确切的数量:

我的另一个想法是吞食输入文件,然后n从数组中随机选择,但如果我有一个非常大的文件,那就是个问题。

有任何想法吗?

编辑:这是这个问题的完全重复。

0 投票
2 回答
162 浏览

mysql - 使用 MySQL 和 Perl 随机化 Wikipedia 中的页面?

我在这里找到了一个 perl 脚本,用于管理随机化 Wikipedia 中的 wikipedia文章。该代码似乎是计算机生成的。由于我目前对 MySQL 的兴趣,我认为您可能会在数据库中拥有链接和相关数据。

我知道 MySQL 擅长维护表之间的关系,而您似乎可以使用 Perl 轻松实现。我觉得给他们的专长划一条线有点模糊。所以:

如何使用 MySQL 和 Perl 随机化 Wikipedia 文章?

0 投票
1 回答
387 浏览

python - random.sample 只返回字符而不是字符串

这是一种新手问题,但我找不到解决方案。我从文件中读取字符串列表,并尝试使用 random.sample 获取随机的 5 元素样本,但结果列表仅包含字符。这是为什么?如何获得字符串的随机样本列表?

这就是我所做的:

这给出了一个五元素字符列表,例如:

如果我省略 random.sample 部分并打印列表,它会打印出文件的每一行,这是预期的行为,并证明文件读取正常。

0 投票
6 回答
3626 浏览

java - 生成相关数字

这是一个有趣的:我需要生成随机 x/y 对,它们在Pearson 乘积矩相关系数或 Pearson r的给定值下相关。您可以将其想象为两个数组,数组 X 和数组 Y,其中数组 X 和数组 Y 的值必须重新生成、重新排序或转换,直到它们在给定的 Pearson r 水平上相互关联。这是踢球者:数组 X 和数组 Y 必须是均匀分布。

我可以用正态分布来做到这一点,但是在不扭曲分布的情况下转换值让我很难过。我尝试对数组中的值重新排序以增加相关性,但我永远不会仅仅通过排序就得到 1.00 或 -1.00 的相关数组。

有任何想法吗?

--

这是随机相关高斯的 AS3 代码,以使车轮转动:

0 投票
4 回答
4434 浏览

c# - 从集合中随机返回项目

我有一个从数据库返回通用列表集合(List)的方法。此集合有订单详细信息,即订单 ID、订单名称、产品详细信息等。

此外,方法该方法返回一个集合,该集合仅具有按订单日期降序排序的前 5 个订单。

我的要求是每次客户端调用这个方法,我需要返回有5个随机订单的集合。

如何使用 C# 实现这一点?

0 投票
3 回答
7400 浏览

hadoop - 如何使用 Map/Reduce 选择随机(小)数据样本?

我想编写一个 map/reduce 作业,以根据行级条件从大型数据集中选择多个随机样本。我想尽量减少中间键的数量。

伪代码:

你做过这样的事情吗?有没有众所周知的算法?

包含连续行的样本也足够好。

谢谢。