问题标签 [data-manipulation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonistas,我如何在 MySQL 中从上到下从左到右移动数据(考虑每个 ID 的多个值)?
手头的任务是将表 1 中所示的数据移动到表 2 中。
表格1)
Val 列取决于每个 ID 的唯一值的数量。在这种情况下它是 3,但在现实世界中它可以是 20!
表(2)
对于较小的 Val 列值(在本例中为 3),我如何处理它:
我创建了一个临时表。
然后我插入数据进行测试。
我得到以下信息(我必须手动创建 Val 列):
我知道这是一个繁琐的过程,需要大量的手工工作。这是在我爱上 Python 之前!非常感谢 Python 中针对此问题的有效解决方案!
这是我到目前为止所拥有的
regex - Vim 查找替换,添加一个常量
我知道这是一个长镜头,但我有一个巨大的文本文件,我需要将一个给定的数字添加到符合某些条件的其他数字。
例如。
我想将它(通过添加说 1.15)转换为
通常我会在 Python 中执行此操作,但它在我无法安装太多东西的 Windows 机器上。不过我有 Vim :)
python - 数据识别、解析、过滤和转换——GUI?
寻找基于非云的开源应用程序进行数据转换;虽然对于刚刚为数据转换而构建的杀手级(我的意思是杀手级)应用程序,我可能愿意花费高达 1000 美元。
我看过Perl、Kapow Katalyst、Pentaho Kettle等等。
Perl、Python、Ruby这些显然是语言,但找不到任何仅用于处理数据的框架/DSL;这意味着它们真的不是一个很好的开发环境,这意味着没有用于构建 RegEx、输入/输出(CSV、XML、JDBC、REST 等)的内置 GUI,没有用于测试行和数据行的调试器——它们是也不错,只是不是我想要的,它是为复杂数据转换而构建的 GUI;也就是说,如果 GUI/app 文件采用脚本语言,而不只是存储在一些人类不可读的 XML/ASCII 文件中,我会很高兴。
Kapow Katalyst是为通过 HTTP(HTML、CSS、RSS、JavaScript 等)访问数据而设计的。它有一个很好的 GUI 用于转换非结构化文本,但这不是它的核心价值,而且太贵了。它可以很好地遍历文档命名空间路径;猜测它只是后端的 XPath,因为语法似乎是相同的。
Pentaho Kettle为大多数常见数据存储的 INPUT/OUTPUT 提供了一个不错的 GUI,并且它自己处理数据处理;没关系,只是学习曲线很小。Kettle 的调试器还可以,数据很容易看到,但是错误和异常没有与输出线程化,没有办法真正调试问题;这意味着您无法重新加载输出/错误/异常,但能够查看系统反馈。话虽如此,Kettle 数据转换是 _______ 好吧,只是说它让我觉得我一定错过了一些东西,因为我完全困惑于“如果不可能,就用 JavaScript 编写转换”;嗯,什么?
那么,有什么建议吗?请意识到我并没有真正指定任何转换,但如果您真的使用产品进行数据处理,我想知道它;我猜,甚至会出类拔萃。
不过总的来说,目前我正在寻找一种能够处理 10-100 列的 1000-100,000 行的产品。如果它可以分析数据集,那就太酷了,这是 Kettle 的一个功能,但不是很好。我还想要内置单元测试,这意味着我能够构建数据控制集,并运行对控制集所做的更改。然后,我希望能够在构建转换时选择性地过滤掉行和列,而不改变构建;例如,我通过转换运行数据集,过滤结果,然后在下一次运行时,这些数据集在第一次“逻辑”出现时自动被阻止;这反过来意味着要“查看”的数据更少,并且每次增强迭代的运行时间都会减少;如果像我一样,那将是疯狂的好 d 过滤掉应用程序正在跟踪的行/列,(并且输出被过滤掉)。并进行单元测试/突出显示任何更改。如果我进行了会影响应用程序日志的更改,并且它能够基于我“打破分支”来跟踪单元测试 - 它会给我一个警告,让我转储存储的数据分支......和/或跟踪下一代输出差异的主键,甚至尝试使用模糊逻辑匹配它们。是的,我知道这是一个白日梦,但是嘿,我想我会问,以防万一那里有我从未见过的东西。
随时发表评论,我很乐意回答任何问题,或提供更多信息。
windows - 用于从文本中剪切列的 Windows 命令
以下内容存储在一个文件中:
有没有办法用 Windows 命令行提取第 5 列?
类似于 UNIXcut
命令的东西。
excel - 如何旋转excel数据
这是我一直想知道的一个普遍问题。有好几次我需要在 Excel 中旋转数据,例如:
从...开始:
转变成:
我从来没有找到一个合理的方法来做到这一点。我现在能想到的解决方案是:
- 写一个宏(呸)
- 手动复制/粘贴(呸)
- 也许是一些数据透视表的魔法?(我怀疑这是可能的)
- 巧妙的公式使用
INDEX
还有其他解决方案,也许是一些隐藏的内置功能?
mysql - 复杂的 MySQL 数据结构/操作问题
首先,我为篇幅道歉。这有点复杂(至少对我来说)。
数据库背景:
我有一个产品、变量和价格表。“产品”是关于产品的主要信息(描述、标题等)。“价格”包含有关每个价格的信息(价格、成本、所需的最低数量、运输成本等),因为某些产品可以有多个价格(例如,10 英寸小部件与 12 英寸小部件的价格不同) . “变量”是不改变价格的产品变量,例如颜色、尺寸等。
最初(大约 7 年前我建立这个数据库时)我将变量信息存储在相同产品的价格列表中的第一个价格中,以管道分隔格式(是的,我知道,badbadbad)。这通常是有效的,但我们总是遇到一个问题,有时一个变量在所有价格中都不一致。
例如,一个小部件(产品)可能是 10 英寸或 12 英寸,分别以 10 美元和 20 美元(价格)出售。但是,虽然 10" 小部件可能有蓝色和红色(变量),但 12" 小部件仅提供红色。我们通过在不一致的变量中添加一个小括号语句来改善这个问题,比如“红色(10”只)“。这种工作,但客户并不总是那么聪明,当客户选择时,很多时间都花在修复错误上一个 12 英寸的红色小部件。
从那以后,我的任务是对数据库进行现代化改造,并决定将变量放在他们自己的表中,使它们更具动态性,更容易与某些价格相匹配,并保持更可靠的库存(你无法想象噩梦)。
我的第一步是在我的测试数据库上编写一个存储过程(当我进行转换时),将所有现有变量处理成一个新的变量表(和标签表,但这并不重要,我不认为)。我有效地解析了变量,并在变量表中列出了正确的产品 ID 和它们最初关联的产品 ID。然而,我意识到这只是问题的一部分,因为我(至少对于数据库的初始转换)希望每个变量都被列为与给定产品的每个价格相关联。
为此,我创建了另一个表,如下所示:
这是一个多对多的变量表。
问题:
我现在的问题是,我不知道如何创建行。我可以在我的价格和变量表上创建一个左连接来获取(我认为)所有必要的数据,我只是不知道如何通过它。我的 sql 是(mysql 5.0):
这将为我提供每个 priceid 和 productid 以及任何匹配的变量和标签 ID。这在某些情况下很好,例如当我有类似的东西时:
因为现在我知道我需要为 priceid 2 和 variableids 10、11、12 创建记录,然后还为该产品的 priceid 3 创建记录。但是,我也从这个数据集中得到了没有变量的产品、一个价格和多个变量的产品以及多个价格和没有变量的产品的结果,例如:
使用上述数据集,我想将条目添加到我的 tblpricesvariables 表中,如下所示:
我有数千条记录要处理,所以显然手动执行此操作不是答案。如果没有想出一个可以处理此类操作的存储程序,任何人至少可以为我指出正确的方向吗?我也欢迎任何关于如何更好地组织和/或构造这些数据的评论。
非常感谢您阅读所有这些并帮助我。
r - 使用多个变量和一些时间不变将数据框从宽到面板重塑
这是Stata一步处理的数据分析中的一个基本问题。
创建一个宽数据框,其中包含时不变数据 (x0) 和 2000 年和 2005 年的时变数据 (x1,x2):
英石
我想把它塑造成一个面板,所以数据看起来像这样:
我可以用reshape
st做到这一点
我主要担心的是,当你有几十个变量时,上面的命令会变得很长。一种是简单地输入stata
:
R中有这么简单的解决方案吗?
data-mapping - 用于匹配列表项的应用程序/GUI?
我正在将数据从一个数据库模式迁移到另一个。我必须匹配从旧到新的字段。
我想要一个简单的应用程序或 GUI 界面,其中左侧有表和字段架构列表,右侧有另一个架构。我想用线条将左侧的一项连接到右侧的另一项。我想要一个简单的拖放功能来将一个与另一个相关联。
我知道这些字段在所有情况下都不会 1:1 匹配,但这就是我需要/想要开始的全部内容。
我可以在文本编辑器或电子表格中执行此操作,但我想要一个更强大的 UI。在不破坏下面左/右关系的对齐方式的情况下,很难在一侧插入新项目。
是否有一些桌面或网络应用程序可以帮助我解决这个问题?
r - R:从滚动窗口中创建数据框
假设我有一个具有以下结构的数据框:
将“DF”转换为具有以下结构的数据框的最有效方法是什么:
其中 w 是通过数据框“DF”滚动的长度为 2 的窗口。窗口的长度应该是任意的,即长度为 3 产量
我有点被这个问题难住了,因为数据框还可以包含任意数量的列,即 w、x、y、z 等。
/edit 2:我意识到编辑 1 有点不合理,因为 xts 似乎无法处理每个数据点的多个观察结果
r - 将数据帧拆分为重叠的数据帧
我正在尝试编写一个行为如下的函数,但事实证明它非常困难:
我没有想过如果你尝试类似的事情会发生什么OverLapSplit(DF,nsplits=2,overlap=1)
也许如下:
谢谢!