问题标签 [historical-db]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 Peewee 中使用历史记录表进行版本控制?
我有一个 ETL 工具可以从各种文件中读取数据并使用 Peewee ORM 将其存储在 MySQL 中。现在我想将所有将更新的字段存储在不同的表中。我们在 Peewee 中是否有任何即插即用型解决方案?请帮帮我。
mysql - 如何存储历史数据
我有一个带有大型产品表(约 700k 行和 35 列)的 Mysql 数据库,其中每条记录(PK 变量除外)可以每两周更新一次。目前我将它包含在我的数据库中,并提供最新更新。我想存储每次更新的历史数据(例如,从 2021 年 4 月 1 日、2021 年 4 月 15 日、2021 年 5 月 1 日开始......)。是否有一种巧妙的方法可以以运行时友好的方式存储此类历史数据,而无需将每个双周更新的 700k 记录保存在单独的表中?
谢谢!
sql-server - 在单表中使用 TSQL 脚本在 SQL 数据库中进行更改跟踪/历史记录
对于上下文,我有一个简单的 Azure SQL 数据库,我有一个具有 12 个维度的理论维度模型和一些最终应该用作 DWH 的事实表。
我希望在这个维度模型上应用历史化。开始简单并应用历史化的概念,我想在一维上启用它。在我的情况下,这是 DimEmployee,它看起来像这样,带有一行样本数据(它有更多列,但为简单起见,我只采用这些)
EmpKey | 企业名称 | 空城 | DWHDatStart | DWHDatEnd | 活跃 |
---|---|---|---|---|---|
52 | 约翰 | 伦敦 | 2020 年 2 月 2 日 | 9999 年 12 月 31 日 | 是的 |
现在,如果假设 John 搬到另一个城市,我希望对此进行跟踪,以便 EmpCity 的值更新时所需的情况是
EmpKey | 企业名称 | 空城 | DWHDatStart | DWHDatEnd | 活跃 |
---|---|---|---|---|---|
52 | 约翰 | 阿姆斯特丹 | 2021 年 8 月 6 日 | 9999 年 12 月 31 日 | 是的 |
52 | 约翰 | 伦敦 | 2020 年 2 月 2 日 | 2021 年 8 月 6 日 | ñ |
我将如何使用 TSQL 应用它。我认为它必须是某种触发器,但缺乏应用它的具体知识。我已经阅读过时态表,通常在启用数据历史化时,您会将历史数据存储在单独的历史表中。我认为由于这种模型设计,总是可以通过添加 DimEmployeeHist 尺寸或其他任何东西来扩展这个概念,但对于第一个概念,这不是必需的。我不知道在单独的表中执行此操作会带来什么价值,否则当您拥有大量历史记录时,您希望它们都整齐地存储在一个地方,以免弄乱您的主表。
这必须在创建表脚本中完成还是可以在创建表后完成?
database - Github 存储库统计:历史数据?
假设我们有以下 GitHub 存储库:https ://github.com/pytorch/pytorch
在页面的右侧,您可以看到Used by
和Contributors
计数。是否有可能每月获取该信息,例如过去 x 个月/年?
在这里使用 Wayback 机器似乎并不完美,也是因为数据不完整,因此我想知道是否有(免费)API 可以为您提供历史数据。
先感谢您!
powerbi - 需要历史数据 + 刷新数据 (Power BI)
我一直在创建一个需要显示产品整体状态的报告。例如第 1 周的原始数据。
在第 2 周,在我刷新原始数据之后。
我需要在BI报告中显示的是这样的,
我做了一些研究(https://www.thebiccountant.com/2017/01/11/incremental-load-in-powerbi-using-dax-union/)如何存储历史数据。
但它没有帮助,因为我从数据库中检索我的数据,还有大量数据也有新产品进来。博客中提到的“旧数据”必须每周刷新一次,并且不能禁用选项“包括在报告刷新中”。
感谢您的关注。提供的任何帮助将不胜感激!
postgresql - 查询历史数据库,获取选中字段
我是 Postgresql 的新手。在测试查询时,我遇到了一些与 GROUP BY 相关的错误。
我有历史数据,其中包括不同版本的客户。我想获得最新的 id+short_id+version 组合。我有可以用来对它们进行排序的时间戳。
所以这是数据库表
因此,我想得到以下结果;
到目前为止我所做的,
但这作为字段返回必须出现在 GROUP BY 子句中或在聚合函数中使用。那么关于如何过滤历史数据有什么想法吗?
python - pdfplumber 可以为我扫描的 pdf 提取表格吗?
(我知道 pdfplumber 主要面向计算机生成的 PDF。但是,在我花了几天时间从扫描的 PDF 中手动输入数据之前,我想我会问 pdfplumber 是否能以某种方式帮助我。)
我的问题:
我从历史书籍中扫描了 PDF。
示例:来自统计年鉴的数据
现在我正在尝试从扫描的 PDF 中提取表格(示例中右下角的那个)。
我第一次尝试用 pdfplumber 提取表格没有成功。
例如
回来None
有没有希望我能够非手动提取这种数据?还是我应该把它吸干?
提前感谢您的任何帮助或建议!
group-by - SQL 分组历史表
我有以下员工数据:
实际身份证 | 最后一个 ID |
---|---|
2554 | 2344 |
2344 | 2111 |
2111 | 无效的 |
2332 | 无效的 |
2555 | 1234 |
1234 | 无效的 |
这里的特点是员工可以更改他的标识符,只保存前一个。
我应该添加一个新字段,创建一个新的标识符,将员工的历史分组。
实际身份证 | 最后一个 ID | 新身份证 |
---|---|---|
2554 | 2344 | 1 |
2344 | 2111 | 1 |
2111 | 无效的 | 1 |
2332 | 无效的 | 2 |
2555 | 1234 | 3 |
1234 | 无效的 | 3 |
是否可以在 SQL 中做到这一点。如果是这样,请告诉我。实际上我使用的是 SQL Server 2017,谢谢。