问题标签 [data-generation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
103 浏览

r - 生成一个三列的数据框,每行的总和为常数

我想生成一个包含三列(A、B 和 C)的大型数据框(100000 行和 3 列)。

该数据框满足两个条件:

  1. 在每一行中,A+B+C=1;
  2. 所有 A 具有三角分布 (min=0.2,mod=0.3,max=0.4),所有 B 具有三角分布 (min=0.3,mod=0.4,max=0.5),所有 C 具有三角分布 (最小值=0.1,模数=0.3,最大值=0.5)。

我不知道如何生成这种数据集。

非常感谢您提前提出的建议。

松超

0 投票
2 回答
94 浏览

sql - 我应该在客户端还是在 SQL Server 中生成大量 SQL 数据?

我正在编写一个程序来生成海量(约 10 亿条记录,分布在约 20 个表中)的数据量并填充 SQL Server 中的表。这是跨越多个表的数据,可能具有多个外键约束,以及多个类似“枚举”的表,其值的分布也需要看似随机,并且经常从其他表中引用。这导致了很多ORDER BY NEWID()类型代码,这对我来说似乎很慢。

我的问题是:哪种策略会更高效:

  1. 在 SQL Server 中生成和插入数据,使用基于集合的操作和一堆ORDER BY NEWID()来获得随机性

  2. 在客户端生成所有数据(应该使从枚举表中选择随机值等操作更快),然后将数据导入 SQL Server

我可以从这两种策略中看到一些积极和消极的一面。显然,随机数据的生成在客户端会更容易并且可能更高效。但是,将该数据发送到服务器会很慢。否则,导入数据并将其插入基于集合的操作中的规模应该相似。

有没有人做过类似的事情?

0 投票
2 回答
18213 浏览

python - 生成测试数据 - 如何为给定的美国邮政编码生成有效地址?

我正在创建一个依赖于地址的工具。出于测试目的,我想创建大量有效的美国地址。我有GeoNames 邮政编码数据,我想为美国大约 41,000 个邮政编码中的每一个生成一些真实地址。

我发现像FakeAddressGeneratorFakeName这样的网站声称可以生成随机的、有效的美国地址。这些网站是如何运作的?我怎样才能在不依赖抓取这些网站的情况下做同样的事情?

理想情况下,我希望能够在 Python 中做到这一点;使用 Web 服务很好(看起来 FakeAddressGenerator 或 FakeName 都没有提供这样的 Web 服务)。

谢谢!

0 投票
2 回答
3785 浏览

python - 使用现有数据集作为基础数据集生成数据

我有一个由 10 万条唯一数据记录组成的数据集,为了对代码进行基准测试,我需要测试具有 500 万条唯一记录的数据,我不想生成随机数据。我想使用我拥有的 100k 数据记录作为基础数据集,并生成与它类似的剩余数据,并为某些列提供唯一值,我该如何使用 python 或 Scala 来做到这一点?

这是示例数据

每对纬度和经度在生成的数据中应该是唯一的,我也应该能够为这些列设置最小值和最大值

0 投票
2 回答
51 浏览

r - Generate viable sampling distributions of discrete data in R

I'm trying to simulate 2 X 2 data that would yield a relatively strong negative phi coefficients.

I'm using the library GenOrd as follows:

However, I'm getting the following error whenever I input a correlation larger than -.70.

I'm clearly specifying something untenable somewhere - but I don't know what it is.

Help appreciated.

0 投票
1 回答
19 浏览

sampling - 在 R 中采样数据

我想从以下格式中采样 100x5 个数据点:概率为 0.6、2。否则(概率为 0.4、10 + Epsilon)Epsilon ~ {-2,-1,0,1,2}

这是我所做的,

但它不起作用。它对每一列仅对“sample(-2:2,1)”进行一次采样。

应该做什么?

0 投票
1 回答
466 浏览

c# - 尝试使用 Bogus 生成大规模测试数据集

我正在尝试使用Bogus生成生产质量和数量大小的测试数据集,并且该库非常适用于基本数据 - 简单的数据类型,如intor string,名字和姓氏等。

我目前没有看到如何在我的测试数据设置中处理两种情况:

  • 对于对象的某些属性,我希望能够定义类似“在 20-30% 的情况下,使用 aNULL而不是生成值”之类的东西——这可能吗?

  • 在其他情况下,我需要从可用对象列表中随机选择一个对象 - 但我需要使用那个已选择的对象来为正在生成的对象设置多个属性。例如,对于“订单”,我可能想从给定的可能城市列表中选择一个“城市” - 一旦我有了一个城市,我想从那个选定的城市设置我的“订单”对象的CityName,StateZipCode. 我还没有找到一种方法来做到这一点(还) - 任何接受者?

0 投票
1 回答
19 浏览

machine-learning - 如何在大量字符串中推断出令人惊讶的“缺失”数据。或者书呆子做独特(但理智)的婴儿名字

前几天,当我试图为我的常用名字找到一个适用的电子邮件地址时,我正在考虑这个问题。

假设我将美国大约 1.5 亿男性的所有姓名都保存在一个文件中,并且我想找出“不存在但听起来像他们应该存在的男性”。也就是说,我想找出在我的所有姓名记录中没有一个人被命名为该组合的名称组合(名字、中间名、姓氏)。假设我欣赏独特名称的优点,但不想要任何不熟悉和发音错误的缺点。

当然,我可以编一个像“Nickleback Sunshine Cheeseburger”这样的名字,并且有理由怀疑没有人会被命名为这个组合,但这可能会让人们感到困惑,所以我想要这个系列中存在的名字。因此,像“Chao-Lin”这样具有不同语言起源的名字虽然可能与姓氏“Jones”一起出现,但它们不太可能出现在 Jones 中,并且看起来更符合类似语言起源的姓氏,如“Chao-林阔”。与帕特尔等人相比,何塞更有可能与冈萨雷斯一起出现。

当然,这些概念中的任何一个都必须通过数据结构来加强。

举个例子,如果“John Marcus Black”不存在,那会很有趣,因为名称中的所有名称都是常见的,并且经常一起出现,只是没有按顺序出现。

我想到的第一件事是某种按频率加权的特里图或有向图,但它仅适用于“自动完成”之类的功能,我们正在寻找的东西实际上并不存在于集合中。我也在考虑后缀树,但不确定这是否是一个好的用例。

我确信有一种机器学习算法足以找到这些名字,但我知道的不多。

奖金,最正常的唯一名称,给出了必要的姓氏。给定一个像“Smith”这样的起始名字,想出最令人惊讶的缺失名字。

tl;dr 1. 给定文件中所有美国男性的名字,找出可能应该存在但不存在的 n 个名字。另外:有些男人有中间名,有些没有。

0 投票
2 回答
2318 浏览

python - 如何在训练 keras 模型时使用数据生成器更快地生成数据?

我按照本教程创建了以下数据生成器。但是,训练时间太长了。知道我已经创建了对象读取的所有数据文件,如何让它运行得更快reader

ps:该方法__data_generation每次迭代执行 2 个磁盘访问。

提前感谢您的回答。

0 投票
0 回答
114 浏览

image - 为机器学习手动标记图像

在此处输入图像描述我需要在图像中手动将像素标记为白色或黑色,以用于训练机器学习算法。

我在统一的背景上有一些斑点。我想要一个工具,当我点击一个单独的 blob 时,它可以从背景中检测到它的边界,并将其涂成白色。这些斑点具有明显的边界,并且比背景更亮。然后,一旦我完成了所有的斑点,我想点击背景,把它涂成黑色,即所有没有被标记为斑点的东西都应该变成黑色。

我对在 Ubuntu 和/或 Mas OS 中运行的免费软件感兴趣。

这是示例输入