问题标签 [data-generation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
44 浏览

sql-server - 在 TSQL 中生成随机中间初始值

我如何在 TSQL 中编写一个程序来遍历表的每一行并为中间的初始列生成一个随机字母?

0 投票
1 回答
1841 浏览

r - 如何使用 R 生成具有时间相关协变量的生存数据

我想从包含时间相关协变量的 Cox 比例风险模型中生成生存时间。模型是

whereXi是从Binomial(1,0.5)和生成mi(t)time-dependent covariate

对于与时间无关的协变量,我生成如下

谁能帮我生成具有时变协变量的生存数据。

0 投票
1 回答
95 浏览

python - 数据生成不完整:Python 随机

我正在尝试编写一个脚本来生成数据。我为此使用随机包。我执行脚本,一切正常。但是当我检查结果时,我发现脚本由于某种原因未能生成最后 100 多行。

有人可以建议我为什么会发生这种情况吗?

0 投票
0 回答
85 浏览

python - 非递归地重新生成随机项目

对于数据库测试,我需要生成查询。为了降低复杂性,假设只有“插入”和“选择”查询,我们只存储最多 2^64 的整数。数据库中的条目聚集在两个级别上:主键和集群键。每个主键最多可以有 2^64 个唯一的簇键,也可以有最多 2^64 个唯一的数据项。

对于每个插入查询,都会给出两个机会值:

  1. 它是否会创建一个新的主键和
  2. 它是否会为现有项目创建新的集群密钥。

我还有一个伪随机数生成器,以及已经生成的项目数。此数字还用于在创建新项目时为随机生成器播种。请参阅代码以了解我如何尝试这样做:

问题:在 add_item 之后的 for 循环中可能有很多“递归”调用,这更有可能是更大cluster_chance的。

任何想法如何以更好的方式解决这个问题?


编辑:到目前为止,我想出的唯一想法是构建一个整数列表。列表[n] 是:

  • n,如果 n 用于生成一个全新的项目,主键 = 集群键
  • 某个主键 k < n,如果为 n 生成了一个新簇,则主键 = k,簇键 = n

问题是,此解决方案使用大量内存:d = [x for x in xrange(100000000)](1 亿个值)使用 3.183.344KiB 内存,因此每个值约 32.6 字节,或每 GB 32.939.450 个值。因此,使用 32GiB RAM,一个人可能管理大约 10 亿个值——很好,但还不够好。

0 投票
1 回答
1117 浏览

neo4j - 轻松模拟分层数据的快速方法

我正在寻找一种快速简便的解决方案来帮助模拟/填充/测试组织结构图(在 ASP MVC 中),使用基于树的或分层的数据。我需要这个测试数据...

我已经使用了http://www.generatedata.com和 mock-aro (我都喜欢,但是来自该站点的 MS Sql 数据不起作用,它有多个语法错误,包括基于日期的日期问题数据)并查看了 redgate - 这不是负担得起的,而且它从来没有在嵌套端获得正确的数据。

用部门、姓名、成本和员工来模拟组织结构图等层次结构数据的最快/最省力的方法/工具是什么?

0 投票
6 回答
14529 浏览

java - Java 8 Stream IllegalStateException:流已经被操作或关闭

我正在尝试使用 Stream API 生成 Order 实例。我有一个创建订单的工厂函数,一个 DoubleStream 用于初始化订单的金额。

如果我使用文字 (1.0) 初始化 Order 实例,则可以正常工作。当我使用 doubleStream 创建随机数量时,会引发异常。

0 投票
0 回答
593 浏览

scripting - SSMS 2012 - 如果不存在,则生成仅数据脚本

我想在 SSMS 2012 中生成一个仅数据插入脚本,其中包含 if not exists 语句以使脚本具有幂等性。

右键单击我希望为其生成脚本的数据库并选择任务 -> 生成脚本,此向导中的高级脚本选项设置如下:

设置高级选项

当此向导生成 SQL 时,没有 IF NOT EXISTS 检查:

我是否遗漏了脚本选项中的某些内容,或者这不可能?

0 投票
2 回答
220 浏览

google-cloud-dataflow - 使用 Google Dataflow 生成数据

假设我想生成 100 万亿条数据(为了简单起见,使用随机数),我想使用 Google Dataflow 来完成。

我可以想到一个愚蠢的方法来做到这一点(我不是 100% 确定这会起作用,但这是我开始尝试的地方):获取一个 1000 万行长的文本文件,并且对于输入中的每一行文本文件有一个循环 1000 万次迭代的 DoFn,每次迭代输出一个随机生成的数字,最终都输出到一个文本文件。(原始文本文件中的任何内容都将被忽略)。

但我不禁想到,使用 Dataflow 生成数据可能有更好、更简单的方法。关于更好的方法来做到这一点的任何建议?

谢谢!

0 投票
1 回答
81 浏览

data-generation - 一种快速生成大量随机数据矩阵的方法

嗨,我想生成一个随机数据矩阵,比如 row*col = 30000*500000。我尝试在 Excel 中使用 VBA,但速度很慢;即使我在我的 8G 内存盒上使用了 bigmemory 包,64 位 R 也被冻结了。为了尽快完成它,我应该使用 C 吗?Java 8 中的并行编程对这个问题有帮助吗?有人有过这方面的经验吗?非常感激!

0 投票
1 回答
1524 浏览

sql - 在样本数据集中随机填充外键

我正在为新数据库生成测试数据,但在填充其中一个外键字段时遇到问题。我需要在一个表 () 中创建相对大量 (1000) 的条目,该表SurveyResponses具有指向只有 6 个条目的表的外键 ( Surveys)

数据库已经有一个Schools包含几千条记录的表。为了争论,让我们说它看起来像这样

我正在创建一个新Survey表。它只有大约 3 行。

SurveyResponses只需将学校与调查联系起来。

填充该SurveyId领域是给我最大的麻烦。我可以随机选择 1000 所学校,但我还没有找到生成 1000 个随机调查 ID 的方法。我一直在努力避免while循环,但也许这是唯一的选择?

我一直在使用 Red Gate SQL 数据生成器来生成一些测试数据,但在这种情况下,我真的很想了解如何使用原始 SQL 来完成。