“data-generation”的相关标签问题

0 投票

3 回答

227 浏览

sql - SQL查询快速数据生成

我创建了一个查询来生成一些数据到 sql 数据库，但是生成 1 GB 数据大约需要 45 分钟。如何提高数据生成的性能？

2013-08-28T13:55:54.233

0 投票

1 回答

164 浏览

postgresql - Postgres 根据年数返回多个相同的结果

我有一个包含子查询的 Postgres 查询，并且只输出 12 行数据，这正是我希望它看起来的样子。这些行中的每一行代表数据库中所有年份的数据的月平均值，每个月一行。查询：

输出的样子：

我从数据库中的日期时间列中提取的月份列。我正在使用此查询的结果并将其存储在一个数组中，但我想为表中存在的每一年重复一次这些确切的结果。因此，如果数据库中有 2 年的数据，则应该有 24 个输出行，或者，12 个相同的行重复两次。如果数据库中有 3 年的数据，则应该有 36 行输出，或者 12 行相同的行重复 3 次。如何在查询中完成此操作？有没有办法根据列中的值循环查询（即日期时间字段中存在的年数？）

postgresql date data-generation

2013-10-13T15:41:36.273

0 投票

1 回答

85 浏览

database - 每日数据生成和插入

我面临一个问题，也许这里有人可以帮助我。

我在一家商业智能公司工作，我想以客户使用它的方式模拟我们产品的整个使用周期。

简短的版本是我们的客户每天向他们的数据库插入大约 2000 万条记录，而我们的产品在一天结束时会处理新数据。

我想每天自动创建大约 2000 万条记录并将它们插入到某个数据库中（可能是 MSSQL）。

我应该指出，记录的数量应该每天在 15 到 2500 万之间变化。除此之外，数据应该被插入到与外键链接的 6 个表中。

我通常使用 Redgate 的 SQL 生成器来创建数据，但据我所知，它适合一次性数据生成，而不是我正在寻找的持续数据生成。

如果有人知道适合这种情况的方法/工具，请告诉我。谢谢！

database database-administration data-generation

2013-10-20T09:19:36.327

0 投票

2 回答

242 浏览

c++ - 如何在编译时静态生成浮点数据？

鉴于我想对某些数据执行过滤，我怎样才能避免在运行时生成这些数据，但要保持更改这些过滤器的大小和数据分布的灵活性，同时还要保持干净整洁的可重用代码。我知道我可以使用模板来执行以下操作：

这确实会根据 someDistribution(...) 根据过滤器对象中的索引 x 在我的过滤器中生成数据。然而，我的使用有一些缺点......

1）我认为我说得对，虽然这些数据不是在对象构造时生成的，但它是在程序启动时生成的。- 这我可以容忍，虽然宁愿过滤器在comiletime计算并在那里烘焙（这甚至可能用于浮点数据吗？）

2）过滤器不会实例化“下一个”成员，除非有一个遍历结构长度的成员函数（在某处被调用！），即

要求插入实例化功能一定是我做错了，这使易于维护的子句失败。

编辑：我在这里关心的原因是我想确保next成员被实例化，这样我就可以使用开始和结束函数遍历静态“数组”。

因此，首先我如何解决问题 2 并取消实例化函数，其次是否可以解决问题 1，以便在编译时动态生成并备份这些数据。

（注意，在类似的问题上，我使用 python 预编译脚本来生成包含过滤器数据的源文件，但我不想在这里使用它，因为那是它自己的鱼锅！）

c++visual-studio-2013 compile-time data-generation

2013-11-01T15:33:01.110

0 投票

1 回答

245 浏览

python - 如何在 Python 中生成具有 Box-Cox 分布的随机变量？

有什么方法可以使用已知均值、std.dev 和 lambda 在 Box-Cox 分布中生成随机数？比如说，我使用了 random.gauss(mu,sigma) 和 random.lognormvariate(mu, sigma) 来生成正态分布和对数正态分布的随机变量。我怎样才能对 Box-Cox 案例做同样的事情？如何引入 lambda 以及均值和标准差？

python random lambda data-generation

2013-11-04T01:41:15.147

0 投票

1 回答

557 浏览

javascript - 从文本文件为 Jquery JQplot 插件生成数据

我正在尝试从文本文件中获取数据并生成 jqplot 图。

问题是即使我将其完全保存为演示版本，我也无法让插件读取数据。注意：演示数据适用于我的脚本，它只是格式化我无法掌握的数据。

非常感谢

这是我的脚本：

这就是我的代码，line1 var 是问题所在。这是有效的原始示例代码：

这是我的文本文件 userschart.txt 的内容：

javascript jquery text-files jqplot data-generation

2013-12-15T17:50:05.400

0 投票

2 回答

275 浏览

sql - 如何避免手动编写/管理 SQL

我和我的团队正在快速开发一个由 Oracle 数据库支持的 Web 应用程序。我们使用 maven 的插件 flyway 从 INSERT SQL 脚本管理我们的数据库创建和填充。通常我们会在每个 sprint 中添加 3-4 个表和/或修改现有的表结构。

我们在一个生成包含约束的模式的外部工具中对模式进行建模，并首先运行它，然后是 SQL INSERT，以确保所有数据的完整性。

我们花费了太多时间来管理对 SQL 的更改以覆盖新表 - 我的意思是向现有 SQL INSERT 语句添加额外的列数据，更不用说手动创建新的 SQL INSERT 数据，特别是当它们引用外国时钥匙。

当然还有另一种方法，也许在 Excel 中维护原始数据并通过解析器将其传递给数据库。有人有什么想法吗？

到目前为止有 10 个表和多达 1000 个 SQL 语句，DB 不是实时的，所以我们在每次构建时都将其拆除。

谢谢

编辑：插入的数据是平台依赖于功能的静态参考数据-菜单等。架构是Tomcat，JSF，Spring，JPA，Oracle

sql oracle testing flyway data-generation

2014-02-26T21:20:40.343

0 投票

0 回答

78 浏览

r - 如何使用R中的另一个序列生成数字序列

我正在尝试在 R 中生成两个序列，其中序列 A 来自 0~1，B 来自 0~(1-A)。我尝试使用以下命令，但没有奏效。请问有什么好的建议吗？

r data-generation

2014-03-27T06:43:17.887

0 投票

2 回答

472 浏览

r - 在 R 中生成虚拟网店数据：在随机生成交易时结合参数

对于我目前正在学习的一门课程，我正在尝试构建一个虚拟交易、客户和产品数据集，以展示网店环境中的机器学习用例以及财务仪表板；不幸的是，我们没有得到虚拟数据。我认为这是提高我的 R 知识的好方法，但在实现它时遇到了严重的困难。

这个想法是我指定了一些参数/规则（任意/虚构，但适用于某种聚类算法的演示）。我基本上是在尝试隐藏一个模式，然后利用机器学习重新找到这个模式（不是这个问题的一部分）。我隐藏的模式基于产品采用生命周期，试图展示如何识别不同的客户类型用于有针对性的营销目的。

我将展示我在寻找什么。我想让它尽可能真实。我试图通过将每个客户的交易数量和其他特征分配给正态分布来做到这一点；我完全愿意接受其他潜在的方法来做到这一点？

下面是我走了多远，先建一张客户表：

接下来，生成一个可供选择的产品表：

现在我想根据当前相关的每个变量的以下参数生成 n 笔交易（数字在上面的客户表中）。

这个想法是“EarlyAdopters”将（平均而言，正态分布）10% 的交易带有标签“BySearchEngine”、60% 的“ByDirectCustomer”和 30% 的“ByPartnerBlog”；这些值需要相互排除：无法通过 PartnerBlog 和最终数据集中的搜索引擎获得。选项包括：

此外，我想使用上述方法生成一个正态分布的折扣变量。为简单起见，标准偏差可以是平均值/5。

接下来，我最棘手的部分，我想根据一些规则生成这些交易：

几天内分布均匀，周末可能稍微多一些；
分布于 2006-2014 年间。
多年来分散客户的交易数量；
客户不能购买尚未发布的产品。

其他参数：

CustomerID 2 的结果将是：

我对编写 R 代码越来越有信心，但是我在编写代码以保持全局参数（交易的每日分布，每个客户每年最多 # 笔交易）以及各种链接保持一致时遇到了困难：

时效性：发布后人们购买的速度有多快
ReferredBy：该客户是如何访问我的网站的？
客户有多少折扣（说明一个人对折扣有多敏感）

这使我不知道我是否应该在客户表上编写一个 for 循环，为每个客户生成事务，或者我是否应该采取不同的路线。非常感谢任何贡献。替代的虚拟数据集也是受欢迎的，尽管我渴望通过 R 来解决这个问题。随着我的进步，我会不断更新这篇文章。

我当前的伪代码：

使用 sample() 将客户分配给客户类型
生成 Customers$NumBought 交易
... 仍然在想？

编辑：生成事务表，现在我“只”需要用正确的数据填充它：

r dummy-data data-generation

2014-04-10T13:07:28.213

0 投票

2 回答

666 浏览

sql - 如何使用 MonetDB 生成任意长度的（虚拟）列？

我想运行相当于 PostgreSQL 的

我读过这个：

http://blog.jooq.org/2013/11/19/how-to-create-a-range-from-1-to-10-in-sql/

但是那里的大多数建议并没有真正采用任意长度 - 查询取决于长度，而不是仅仅替换一个数字。此外，一些建议不适用于 MonetDB。那么，我最好的行动方案是什么（如果有的话）？

注意： - 我使用的是 2013 年 2 月的版本。也欢迎提供有关更新功能的答案，但这正是我正在寻找的。- 假设现有表格没有足够的行数；并且不要假设，例如，最长表的笛卡尔乘积与自身就足够了（或者，可能执行起来成本太高）。

sql idioms monetdb data-generation

2014-06-01T08:27:42.117

问题标签 [data-generation]

Reference