问题标签 [data-generation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python中的有序单词排列
所以我的问题很简单,其中一半已经在起作用。我需要帮助来生成有序的单词排列。
我的代码:
我当前的代码完成了一半的工作,但我已经达到了“作家的障碍”
这是我当前制作的脚本的结果。
代码应该做的是 - 取出单词,并用替换中的其他字符重新排序。我已经成功地用一个角色做到了,但我需要帮助才能做出所有的结果。例如:
plot - 在mathematica中创建负责任点图的最佳方法是什么
我是mathematica 的新用户,我对如何以这种方式创建一组数据来简单地处理它们很感兴趣。
我目前的研究是关于集成电路MOS结构中的界面陷阱。而我实际上所做的是将按摩师放在表中并应用一些计数来获得当前因素。
我的表包含两个值电流和电压,我想将这些数据放入mathematica 进行处理。
首先,我需要绘制一个负责任的点图。每个点都有一个 2 值(电流和电压),我的第一个问题是:
我怎样才能以这种方式轻松处理数据并制作图表?
我知道这个功能ListPlot[x,y]
,但它不是为我处理数据的好方法。
我不会使用像 2 个分离的数组或 2 个元素的结构这样的结构,Matematica 可以识别像二维数据集(例如,我的意思是 x 和 y)
sql - 使用 SQL 通过任意一组百分位数进行人口统计模拟
正如标题所暗示的,我想获取一些测试数据并将其塑造成令人信服的demographic sample.
在centile rankings
我有一个任意分布模式的表中,21 行描述百分位数,以 5 为间隔设置,描述frequency distribution
排名。
以这种方式,人口统计分析可以根据品味进行建模,但这种技术可以应用于任何类型的模拟,具有任何数量的分层频率分布。如果生成的数据过于细化并且需要更多的原子性,则可以创建适合每个百分位数范围的随机值。
作为最简单的情况,我想将此分布填充到预先存在的一组测试数据(“学生记录”)中,将每个百分位数分组(第 80、第 85、第 90 ......)随机分配给 适当的学生记录(10学生,5 名学生,3 名学生……)。
在实践中,我想针对任意数量的学生记录,并按比例分配百分位数。每组 21 种频率分布都会表现出不同的模式,甚至是高度偏斜的分布(指数、Weibull、拉普拉斯),每一个都被定制为预定义的用户设置模式。
DDL:
testing - 如何根据逻辑表达式生成测试数据?
作为主题,我想生成测试数据以涵盖某些逻辑表达式的所有可能条件,如下所示:
欢迎任何评论。
顺便说一句,逻辑表达式是应用于我们后端服务器的简化规则。
java - 如何从给定概率的数组中进行选择?
我有一个如下所示的输入 CSV 文件:
0.2, abc, def
0.4, fgd,
fol 0.4, oqo, asd
其中第一列是记录的相对概率。
鉴于我可以读取此文件并将记录放入数组或列表中,我如何在 java 中编写一个方法,根据它们的相对分布从该数组返回记录?
编辑
我的目标是创建一个新的、更大的文件,它与基本文件具有相同的分布或记录/行。
所以如果我创建一个包含 100 行的新文件,那么行的绝对概率应该是:
20 x line 1
40 x line 2
40 x line 3
r - 随机数据生成导致对随机标签的良好预测
我一直在尝试在 R 中实现 CV,但遇到了一个奇怪的问题,即 LOOCV 中折叠之间的返回值。
首先我会随机生成数据和标签,然后我会在应该只是噪声的地方拟合一个 randomForest。从返回的循环中,我不仅获得了良好的 AUC,而且还从 t 检验中获得了显着的 p 值。我不明白这在理论上是如何发生的,所以我很好奇我尝试生成数据/标签的方式是否最好?
这是一个显示我的问题的代码片段。
我尝试了多种生成数据的方法,所有这些都导致相同的结果
和
由于 randomForest 在这种情况下找到了相关的预测变量,这让我相信数据可能不是真正随机的。有没有更好的方法可以生成数据或生成随机标签?这可能是R的问题吗?
image - Keras 图像数据生成器显示标签
我正在使用 ImageDataGenerator 来增强我的图像。我需要从生成器中获取 y 标签。
示例:我有 10 个训练图像,7 个是标签 0,3 个是标签 1。我想将训练集大小增加到 100。
total_training_images = 100 total_val_images = 50
据我了解,这会在每个 epoch 的 100 个训练图像上训练一个模型,每个图像都会根据我的数据生成器以某种方式进行增强,然后在 50 个图像上进行验证。
如果我这样做train_generator.classes
,我会得到一个输出 [0,0,0,0,0,0,0,1,1,1]。这对应于我的标签 0 的 7 个图像和标签 1 的 3 个图像。
对于这 100 张新图像,我如何获得 y 标签?这是否意味着当我将其增加到 100 张图像时,我的新train_generator
标签是相同的,但重复了 10 次?基本上np.append(train_generator.classes)
10倍?
如果有帮助,我正在关注本教程: https ://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
plot - 用于在 2D 平面上拾取点并将其导出到坐标的在线工具)
我正在寻找一个特定的在线工具。起初它显示空的 2D 图(例如,从 -10 到 10 的网格线)。您也可以选择一种颜色。当我选择一种颜色然后单击绘图时,应在绘图上绘制一个新点。我可以单击多次,以便在绘图上生成多个点。然后我可以更改颜色并在同一个图上生成更多点(但颜色不同)。完成后,我应该能够将点导出到坐标和颜色列表: [(0, 1, 'blue'), (1, 1, 'green'), (1, 2, 'green') ]。
有谁知道这样的工具?它的目的是简单地快速生成具有多个类的 2D 数据集。
python - RedGate SQL 数据生成器 Python 脚本检查日期时间列是否为空
我正在使用 RedGate SQL 数据生成器在 SQL Server 2016 中生成测试数据。我有一个表,其中包含一个名为 DELETE_TS 的可为空的 DATETIME 列。另一列 IUD_CODE 是 CHAR(1)。在生产中,当 DELETE_TS 不为空时,该列为“D”。否则它是“I”或“U”,具体取决于其他逻辑。
为了创建“真实的”测试数据,我正在尝试使用 Python 脚本生成器来创建该逻辑。我目前正在使用:
但是每个列都出现“D”,即使 DELETE_TS 为空。
我以前在 Python 方面做得不多,所以我确信这是我缺少的一些小东西。
编辑:这是表中相关列的 DDL:
r - 尝试从列表中生成随机数据
我正在尝试为项目生成数据。数据需要从预定义的列表中随机生成。本质上,我有真实的数据,但它非常小。为了构建一些分类器(决策树、支持向量机和朴素贝叶斯),我想产生 100,000 个观察值。
我是编码新手(我可以在 Matlab 和 R 中做一些基本的事情)并且最初尝试在 Excel 中执行此操作,但是,RANDOMA 函数生成了非常均匀分布的数据。更具体地说,我使用 5 个人口统计信息来预测客户将选择哪个零售商,例如零售商 A、B 或 C。人口统计信息列表如下:
1) 年龄组(18-24、25-34、35-44、45-54、55+) 2) 性别(男性或女性) 3) 收入组(<£10k、£10k-19.99k、£20k- £29.99k 等)4)地区(伦敦、威尔士、苏格兰、北爱尔兰、西南等)5)工作类型(全职、兼职、学生等)
当我尝试随机创建 100,000 个观察值(每个观察值从 5 个列表中的每一个中随机选择 1 个)时,它们几乎均匀分布在它们之间。更糟糕的是,我随机分配给零售商(A、B 或 C)的值也是相等的。
想法是将这些随机生成的数据拆分为训练和测试数据,这样我就可以构建一些模型并测试它们的适用性。