问题标签 [data-comparison]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
160 浏览

python - 使用熊猫比较两列

嗨,我想比较 pandas 数据框中的两列,看看值是否在列的任何行中。

表格1

表:2

因此,我想检查表 1 中的 Dog 是否在表 2 的第 1 列中的任何行中。我是 python 新手并使用 pandas 读取表数据框。

0 投票
0 回答
37 浏览

sql - 200万行数据的两张表的SQLite数据对比

我一直在尝试找到一种方法来比较两个不同表中的大量数据,但我不确定这是否是正确的方法。

所以,这就是为什么我在这里要求它更多地理解一个问题并获得一些清晰度以解决它。

正如标题所说,我有两个少于 200 万行数据的表,我需要对它们进行数据比较。所以基本上我只需要检查一个表中的数据是否与其他表中的数据匹配。每个表都来自单独的数据库,我设法创建视图以具有相同的列名。

这是我的方法,它使我与两个表有所不同。

我有两个问题,所以基本上这是可行的:

  1. 看起来很简单,但是有人可以更深入地向我解释一下这个查询是如何以如此速度工作的吗?是的,我知道 - 阅读文档,但我非常感谢其他答案。

  2. 如何在不手动指定每个列名的情况下包含表中的所有列?

0 投票
0 回答
68 浏览

google-apps-script - 有没有办法通过谷歌应用脚​​本比较两张联系人照片?

现在我正在谷歌表上运行一个脚本来同步两个帐户之间的联系人。

当我更新时,我正在比较当前和过去的数据。联系人照片本身大部分时间都是一样的,变化很少,所以我不想每次都更新数百张照片,这需要一段时间。不幸的是,我一直无法找到一种方法来有效地将之前的照片与当前的照片进行比较。

每次联系人上传照片时,您都需要为其提供编码数据,然后谷歌会在给定的 url 上创建它。相同照片的 url 不同,当比较来自两个 URL 的相同照片的长度等时,照片数据不匹配。给定两个照片网址,我如何判断两张照片是否相同?

示例网址:

https://lh3.googleusercontent.com/-0oH1FBrea-M/YIHHfTH0ICI/AAAAAAAAAA/YrYmrA92lLoyOf-eTNu8geyomhaEHGEsACOQCEAE/s100/photo.jpg

https://lh3.googleusercontent.com/-G7JfH_vmY3I/YJ2RRLUp0VI/AAAAAAAAAA/XMDZ_LNXi709ofwRMmI9uLgUOZU7bMVmQCOQCEAE/s100/photo.jpg

解决方案:我最终将第一个联系人 photo_url 存储在 Person 对象的 miscKeywords 属性中,因为我没有使用与此相关的任何东西。当我去更新我的联系人时,我提取了所有应该匹配的联系人,然后比较 miscKeywords 部分以查看 url 是否已更新。

0 投票
1 回答
50 浏览

sql - 需要由两周前日期的数据组成的列进行比较

首先让我说我对 SQL/Snowflake 有点陌生,并且已经将查询放在一起大约 2 个月。我的某些查询语言可能并不理想,我完全理解是否有更好、更有效的方式来执行此查询。任何和所有输入表示赞赏。此外,这个特定的查询正在 Snowflake 中开发。

我当前的查询是基于 45 天窗口按部门和日期拉客户量,从当前日期回溯 24 天,根据预定约会向前看 21 天。每个日期都根据它在 45 天窗口内的位置进行分组:本周(今天到接下来的 7 天)、第 1 周(前瞻性第 8-14 天)和第 2 周(前瞻性第 15-21 天)。我一直在努力构建一个比较列,对于第 1 周或第 2 周组内的任何日期,该列将从前 14 天(第 1 周)或前 21 天(第2)但我无处可去。这种类型的列是否有最佳实践?附上当前输出的通用示例。请注意,“前一周”

我尝试了几种不同的 count(case...) 迭代,类似于下面列出的;但是,“Prior Wk”列返回的是同一天的遭遇/预定遭遇的计数,而不是 14 天或 21 天前发生的那些。

我尝试使用如下所示的 IFF 语句,但没有返回值。

还尝试创建和使用临时表(包括示例),但未能成功从临时表中提取信息,这些信息并未完全破坏我的遭遇/计划计数。请注意,对于这种方法,我只关注 14 天组,还没有开始关注 21 天/第 2 周组。我尝试使用临时表来解决围绕以下子句的问题(临时表别名:“Date1”):

我非常感谢有关当前最佳实践的任何见解,这些最佳实践是将前期数据拉入当前期间数据旁边的列中。我对术语的任何滥用都不是故意的。

查询输出示例

临时表示例

0 投票
0 回答
34 浏览

python - 在字符串拼接后尝试比较两个熊猫数据帧中相同的两列时,它显示为不匹配,len,类型和数据相同,为什么?

我正在尝试比较固定宽度的文件,我想在其中忽略某些字节进行比较。所以这就是我所做的:

  • 我在 pandas 中使用 read_fwf 将文件加载到 df
  • 我创建了一个函数来拼接指定列中要忽略的数据
  • 然后使用 datacompy 我比较了数据。

结果显示所有行都不相等,但在检查时我可以看到数据、数据类型、数据长度都相同。

我正在使用索引进行字符串拼接。就像在 ColA 中我只需要索引中的数据 - 8:13 被忽略

可乐

qwerty 1234 11234

预期结果:

可乐

qwerty 11234

为此,我使用以下代码在比较之前从 dfs 中删除该数据:

在比较步骤之前,我什至得到了预期的结果

如果我比较两个差异数据帧在各自的列中具有相同的值,例如

df_1:

可乐

qwerty 11234

df_2:

可乐

qwerty 11234

结果不相等,但您可以看到数据中没有不匹配。我使用 == 运算符检查了它,它也返回 false。

我是 python 和数据处理的新手。任何帮助和建议将不胜感激。

0 投票
0 回答
39 浏览

visual-studio-2019 - Visual Studio 2019 中数据库比较结果的导出到 CSV 选项

我一直在使用 Visual Studio 2019 使用新数据比较选项比较数据库。比较后,我无法将数据比较结果集导出到 .csv 文件中。是否有任何插件或隐藏图标用于将数据结果导出到 CSV 文件。

0 投票
0 回答
83 浏览

sql - 我可以在 Azure Data Studio 中比较两个数据库的内容吗?

我有两个数据库,我想在两者之间进行数据比较。在 SSDT 中,这可以使用数据比较功能轻松实现,但我正在尝试转向使用 Azure Data Studio。我可以看到 Data Studio 中有一个模式比较扩展,但很难找到数据比较 - 它存在吗?

0 投票
1 回答
49 浏览

c# - 如何比较来自 2 个具有不同主键和外键的数据库的数据?

我需要比较 2 个数据库的数据。但是我只需要比较 data而不是 keys,它们可能不同(但对象之间的关系必须相同)。

实际上,需要验证数据转换工具的正常运行。

简单的例子:

我在 C# .Net 和 Sqlite 上使用实体框架,这是数据库架构:

数据库:

按顺序排列的表格:文档 - 图表 - Document_contains_diagram

身份证件 姓名 id图 标题 身份证件 id图
1 “我的第一个文档” 1 “进化” 1 1
2 “我的第二个文档” 2 “未来” 2 2

应视为与以下内容相同:

身份证件 姓名 id图 标题 身份证件 id图
3 “我的第一个文档” 8 “进化” 3 8
4 “我的第二个文档” 6 “未来” 4 6

这是一个例子,我想要比较的真实数据库包含超过 50 个表,并且通常超过 10000 个条目(RAM 限制也是一个约束)。
所以我正在寻找一个通用的算法,或者一个工具来比较这两个数据库,这可能有助于我的搜索。我见过的所有工具都只检查表的严格相等性。也许将数据库转换为图表会起作用?