问题标签 [merging-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1821 浏览

java - 组合包含哈希图的数组列表

您好,我有 2 个不同的数组列表,它们都包含哈希图格式的数据(键值对)。现在我需要将这两个列表组合成一个列表,同时保持两个列表的顺序(因此两个列表中位置 [0] 的参考元素应该在新列表中保持一个到另一个)。我需要这个在列表视图中显示这些信息,但到目前为止,我只设法合并两者,但顺序不正确(第一个列表将占用新列表的前半部分,而第二个列表的引用将在之后)。希望可以有人帮帮我 :)

0 投票
1 回答
364 浏览

arrays - 如何降低使用堆合并多个数组的复杂度?

我对这个问题中提出的想法进行了编码:合并排序数组,如下所示:Big-O complex calculation for a merge and sort function

可以看出,这种方法的复杂性超出了预期。有没有更好的方法(除了使用 LINQ)?如果有的话,这种方法的根本缺陷是什么?

0 投票
0 回答
1782 浏览

spss - SPSS中的大文件合并问题

我有一个包含 4000 多个案例和 500 多个变量的大型数据集。我想将这组变量添加到另一个包含大多数相同案例但只有大约 10 个变量的数据集。

这两个数据集都包含一个 ID 变量,可以让我匹配案例。较大的数据集是一个键控表,因为其中有些案例不在较小的集合中,因此我不感兴趣。

我对合并文件非常满意,但是当我查看新数据集时出现了问题。变量在那里,但所有值都丢失了。这仅适用于添加到活动数据集的变量。我检查了关键变量是否有任何重复项,但没有。

我想知道为什么会发生这种情况,是否有办法解决这个问题?我可以补充一点,我以前经常这样做,没有这个问题。

0 投票
3 回答
3773 浏览

python - 合并具有不同列顺序的 csv 文件删除重复项

我有多个列数相同但列顺序不同的 CSV 文件,我想合并它们以删除重复项,这里的所有其他解决方案都不考虑列顺序,因此合并输出不正确,因此如何在任一 Windows 命令行中执行(例如logparser)或bash?

实现这一点的python脚本也可以。

0 投票
1 回答
114 浏览

ruby - Ruby,合并惰性序列

让我有惰性序列:s1, s2, s3, ..., sN,具有非降序数字,例如:

s1 = [1, 1, 2, 3, 3, 3, 4, .....] s2 = [1, 2, 2, 2, 2, 2, 3, 3, 4, ....] s3 = [1, 2, 3, 3, 3, 3, 4, 4, 4, ....]

我想做的是合并它,按相似的项目分组并用一些函数处理它,例如生成元组列表(数字,计数)

对于我的情况:

merge(s1, s2, s3)应该生成[ [1, 4], [2, 6], [3, 9], [4, 5], .... ]

是否有任何宝石等来处理此类序列

0 投票
2 回答
9051 浏览

r - 组合数据框列中的因子水平

我有一个数据框data,其中有一列名为“Project License”,它代表一个分类变量,因此,在 R 术语中,是一个factor。我正在尝试创建一个新列,其中根据我的分类将开源软件许可证组合成更大的类别。但是,当我尝试组合(合并)该因子的级别时,我最终会得到一个列,其中所有级别都丢失或未更改,或者出现错误消息,例如以下消息:

因子错误(数据[[“项目许可证”]],级别 = 分类,标签 = c(“高度限制”,:无效的“标签”;长度 4 应为 1 或 6

这是我用于此功能的代码(从函数中提取):

我还尝试了一些其他方法(包括“R Inferno”中第 8.2.5 节中描述的方法),但到目前为止还没有成功。

我做错了什么以及如何解决这个问题?谢谢!

更新(数据):

更新 2(数据):

0 投票
1 回答
57 浏览

xml - 使用 XSL 将两个文件中的数据合并为一个

我有两个 XML 文件,我正在尝试使用 xsl 合并一些元素。

XML1:

XML2:

输出:

我想从第一个文件中读取业务单位数据,从第二个文件中读取产品系列数据并生成组信息。

步骤是: 阅读所有业务部门

组名是 a:businessUnitCode 和 a:longName 的串联(我做了这部分)

当 a:parentBusinessUnitCode 为空时,读取它的 a:businessUnitCode,在第二个文件中搜索这个 businessUnitCode。

如果 a:businessUnitCode(1st file) 等于 aa:parentBusinessUnitCode(2nd file),则打印其集成 ID。

请帮助我,因为我是 xsl 的新手。

0 投票
2 回答
142 浏览

algorithm - n个文件同时合并为一个的算法

我正在尝试为标题中描述的问题找到一个水平扩展的解决方案。

对问题的更详细解释是:从消息队列 Web 服务中,读取包含上传到某处文件的 URL 的消息,下载文件,对其进行解析,并将其内容附加到位置取决于内容的文件中.

由于队列中的消息量很大(假设每秒连续 100 条消息),如果由多个工作人员执行并发处理,如果没有对文件的受控访问,则可能会丢失数据。

一个相关的特定信息是,在一批消息中,两条消息不太可能针对同一个目标文件(假设 1% 的消息会发生这种情况,分布均匀),以及处理一个消息的速度消息及其文件的速度略高于从队列中读取消息的速度,从而大大降低了发生冲突的可能性。

如果概率非常低,丢失一些数据可能是可以接受的,但我没有确切的数字。

有哪些可用的算法或设计模式?

一些细节:

  • 1000 万个不同的输出文件
  • 每天 500 万条消息
  • 文件存储由第三方网络服务提供,具有无限并发读/写
  • 消息顺序不重要
  • 消息仅包含文件的 URL(以 GUID 作为其名称)
0 投票
2 回答
38 浏览

sql - 基于时间范围合并行以减少 SQL Server 2012 中的数据冗余

我有以下 SQL 问题,我实际上正在寻找最有效的方法来执行此操作。假设我有下表:

注意到冗余的数据量了吗?这是因为这些公司时不时地被抽样,因此这些时期的长度实际上是随机的。

现在的问题是,当且仅当变量 NumberOfEmployees、NumberOfMachines 等相同但 StartPeriod 和 Endperiod 不同时,如何合并行?当然,我想用最早的一个替换开始期,用最晚的一个替换结束期。

r 只是一个指标,而不是数据库中的变量。在这种情况下,1 和 2 将被合并,但 3,4 将被保留,因为它具有不同的值(即它有 31 名员工而不是 30 名)。

在我看来,这是一个非常困难的问题,我什至不确定 SQL 是否可以做到这一点。

结果输出将是:

感谢一切!

0 投票
1 回答
4690 浏览

python - 如何将数据框中的 2 行加入新的 1 行?

我正在过滤格式化为 excel 文件的外部数据源。我无法更改文件的生成方式。我需要过滤掉无用的行并将成对的行合并为一个。到目前为止,我的过程适用于过滤,但不适用于将两个连续行中的相关数据合并为一行。

数据帧没有很好地转换为stackoverflow,但我在下面手动调整了它们。

数据转换

将下载内容转换为有用的格式

0 1 2 3 4 5 0 Session: 2014-2015 NaN NaN NaN NaN NaN 1 Class Information Age Enrolled Key Room NaN 2 Math 10 12 / 18 03396 110 09:00:00 3 Teacher: Joe M Teacher NaN NaN NaN NaN 4 NaN NaN NaN NaN NaN NaN 5 NaN NaN NaN NaN 6 NaN NaN NaN NaN 7 NaN NaN NaN NaN NaN NaN 8 NaN NaN NaN NaN NaN NaN 9 Number of Classes: 1 Number of Students: 12 / 18 NaN NaN NaN NaN 10 Class Information Ages Enrolled Key Room NaN 11 Art 18 - 80 3 / 24 03330 110 10:00:00 12 Teacher: John A Instructor NaN NaN NaN NaN 13 NaN NaN NaN NaN NaN NaN 14 NaN NaN NaN NaN 15 NaN NaN NaN NaN

0 1 2 3 4 5 2 Math 10 12 / 18 03396 110 09:00:00 3 Teacher: Joe M Teacher NaN NaN NaN NaN 11 Art 18 - 80 3 / 24 03330 110 10:00:00 12 Teacher: John A Instructor NaN NaN NaN NaN

0 1 2 3 4 5 0 1 2 3 4 5 2 Math 10 12 / 18 03396 110 09:00:00 NaN NaN NaN NaN NaN NaN 3 NaN NaN NaN NaN NaN NaN Teacher: Joe M Teacher NaN NaN NaN NaN 11 Art 18 - 80 3 / 24 03330 110 10:00:00 NaN NaN NaN NaN NaN NaN 12 NaN NaN NaN NaN NaN NaN Teacher: John A Instructor NaN NaN NaN NaN

这里的目标是让“Math”行的最后五列包含以“Teacher:”开头的列,对于“Art”行也是如此,留下两行而不是四行的数据框。