问题标签 [historical-db]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
56 浏览

python - 如何在 Peewee 中使用历史记录表进行版本控制?

我有一个 ETL 工具可以从各种文件中读取数据并使用 Peewee ORM 将其存储在 MySQL 中。现在我想将所有将更新的字段存储在不同的表中。我们在 Peewee 中是否有任何即插即用型解决方案?请帮帮我。

0 投票
0 回答
27 浏览

mysql - 如何存储历史数据

我有一个带有大型产品表(约 700k 行和 35 列)的 Mysql 数据库,其中每条记录(PK 变量除外)可以每两周更新一次。目前我将它包含在我的数据库中,并提供最新更新。我想存储每次更新的历史数据(例如,从 2021 年 4 月 1 日、2021 年 4 月 15 日、2021 年 5 月 1 日开始......)。是否有一种巧妙的方法可以以运行时友好的方式存储此类历史数据,而无需将每个双周更新的 700k 记录保存在单独的表中?

谢谢!

0 投票
1 回答
156 浏览

sql-server - 在单表中使用 TSQL 脚本在 SQL 数据库中进行更改跟踪/历史记录

对于上下文,我有一个简单的 Azure SQL 数据库,我有一个具有 12 个维度的理论维度模型和一些最终应该用作 DWH 的事实表。

我希望在这个维度模型上应用历史化。开始简单并应用历史化的概念,我想在一维上启用它。在我的情况下,这是 DimEmployee,它看起来像这样,带有一行样本数据(它有更多列,但为简单起见,我只采用这些)

EmpKey 企业名称 空城 DWHDatStart DWHDatEnd 活跃
52 约翰 伦敦 2020 年 2 月 2 日 9999 年 12 月 31 日 是的

现在,如果假设 John 搬到另一个城市,我希望对此进行跟踪,以便 EmpCity 的值更新时所需的情况是

EmpKey 企业名称 空城 DWHDatStart DWHDatEnd 活跃
52 约翰 阿姆斯特丹 2021 年 8 月 6 日 9999 年 12 月 31 日 是的
52 约翰 伦敦 2020 年 2 月 2 日 2021 年 8 月 6 日 ñ

我将如何使用 TSQL 应用它。我认为它必须是某种触发器,但缺乏应用它的具体知识。我已经阅读过时态表,通常在启用数据历史化时,您会将历史数据存储在单独的历史表中。我认为由于这种模型设计,总是可以通过添加 DimEmployeeHist 尺寸或其他任何东西来扩展这个概念,但对于第一个概念,这不是必需的。我不知道在单独的表中执行此操作会带来什么价值,否则当您拥有大量历史记录时,您希望它们都整齐地存储在一个地方,以免弄乱您的主表。

这必须在创建表脚本中完成还是可以在创建表后完成?

0 投票
1 回答
69 浏览

python - 缺少来自 coinApi 的分钟数据

我不确定这是否是我的编码问题,或者我应该直接问 CoinAPI 这个问题。如果我想从硬币中获取一些分钟数据,一些数据似乎只是丢失了。在带有我的代码输出的图片中,您可以看到 2018-05-31T23:42 分钟的数据丢失。你知道有历史加密分钟数据的更好的网站吗?这是我的代码:

在此处输入图像描述

谢谢!

0 投票
2 回答
254 浏览

database - Github 存储库统计:历史数据?

假设我们有以下 GitHub 存储库:https ://github.com/pytorch/pytorch

在页面的右侧,您可以看到Used byContributors计数。是否有可能每月获取该信息,例如过去 x 个月/年?

在这里使用 Wayback 机器似乎并不完美,也是因为数据不完整,因此我想知道是否有(免费)API 可以为您提供历史数据。

先感谢您!

0 投票
0 回答
29 浏览

powerbi - 需要历史数据 + 刷新数据 (Power BI)

我一直在创建一个需要显示产品整体状态的报告。例如第 1 周的原始数据。

第 1 周的原始数据

在第 2 周,在我刷新原始数据之后。

刷新后第 2 周的原始数据

我需要在BI报告中显示的是这样的,

预期在 BI 报告中

我做了一些研究(https://www.thebiccountant.com/2017/01/11/incremental-load-in-powerbi-using-dax-union/)如何存储历史数据。

但它没有帮助,因为我从数据库中检索我的数据,还有大量数据也有新产品进来。博客中提到的“旧数据”必须每周刷新一次,并且不能禁用选项“包括在报告刷新中”。

感谢您的关注。提供的任何帮助将不胜感激!

0 投票
0 回答
22 浏览

postgresql - 查询历史数据库,获取选中字段

我是 Postgresql 的新手。在测试查询时,我遇到了一些与 GROUP BY 相关的错误。

我有历史数据,其中包括不同版本的客户。我想获得最新的 id+short_id+version 组合。我有可以用来对它们进行排序的时间戳。

所以这是数据库表

因此,我想得到以下结果;

到目前为止我所做的,

但这作为字段返回必须出现在 GROUP BY 子句中或在聚合函数中使用。那么关于如何过滤历史数据有什么想法吗?

0 投票
1 回答
180 浏览

python - pdfplumber 可以为我扫描的 pdf 提取表格吗?

(我知道 pdfplumber 主要面向计算机生成的 PDF。但是,在我花了几天时间从扫描的 PDF 中手动输入数据之前,我想我会问 pdfplumber 是否能以某种方式帮助我。)

我的问题:
我从历史书籍中扫描了 PDF。
示例:来自统计年鉴的数据
现在我正在尝试从扫描的 PDF 中提取表格(示例中右下角的那个)。

我第一次尝试用 pdfplumber 提取表格没有成功。
例如

回来None

有没有希望我能够非手动提取这种数据?还是我应该把它吸干?

提前感谢您的任何帮助或建议!

0 投票
0 回答
10 浏览

python-3.x - 使用一个数据框创建 multiIndexColumn 以对来自第二个数据框的时间序列进行分组

我有一组投资组合,我必须提取历史数据来分析业绩

我的初始数据框看起来像这样

在此处输入图像描述

一栏是资产权重,另一栏是投资组合名称,第三栏是资产代码。

许多投资组合共享资产,所以当我提取历史数据时,我不会只调用几次资产一次。

一旦我查询历史数据,我会得到一个不同的数据框,如下所示

在此处输入图像描述

我的下一步是如何创建来自第二个表的资产价格组以创建我的每个投资组合。

所以我没有找到一种方法来组合这两个数据框来按模型名称对历史价格进行分组,所以稍后我可以乘以投资组合中的资产权重并获得投资组合的表现。

有任何想法吗?

0 投票
0 回答
9 浏览

group-by - SQL 分组历史表

我有以下员工数据:

实际身份证 最后一个 ID
2554 2344
2344 2111
2111 无效的
2332 无效的
2555 1234
1234 无效的

这里的特点是员工可以更改他的标识符,只保存前一个。

我应该添加一个新字段,创建一个新的标识符,将员工的历史分组。

实际身份证 最后一个 ID 新身份证
2554 2344 1
2344 2111 1
2111 无效的 1
2332 无效的 2
2555 1234 3
1234 无效的 3

是否可以在 SQL 中做到这一点。如果是这样,请告诉我。实际上我使用的是 SQL Server 2017,谢谢。