问题标签 [datamart]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
86 浏览

etl - 用于确定唯一登录的数据集市结构

背景:我有一个基于星型模式结构(即事实和维度表)的数据集市。

我已经掌握了确定任何维度组合(包括日期范围、界面和区域)的用户登录次数的正常计数的艺术。

问题:当我试图确定唯一登录的数量时,我遇到了困难,因为例如,任何一组天的唯一登录数不是该组中每一天的唯一登录数的总和。

我可怕的解决方案:除了将每个登录信息存储在带有时间戳和用户 ID 的表中之外,我完全没有想法。

0 投票
0 回答
581 浏览

foreign-keys - 数据集市中的代理键

我有三个事实表的 32 个维度,我目前正在使用 SQL Server 2012!

由于 SQL Server 的外键限制为每个索引 16 个,这是否意味着我必须使用代理键来索引事实表中的数据?!或者这个问题还有其他解决方案吗?

由于我的 ETL 每月执行一次,我是否应该在每次数据泵之前检查我插入的数据(外键连接)不存在?!

如果我决定使用代理键并且当我使用蒙德里安立方体(pentaho)时,工作方式(创建模式)是相同的还是与正常方式不同?

谢谢你。

0 投票
0 回答
184 浏览

database-design - 如何使用datamart创建数据仓库?

我真的需要帮助,我的情况是: - 有数据集市,需要从中创建数据仓库 - 我只知道如何从事务数据库开始创建 DWH - ETL - 数据仓库 - 数据集市 - 我不知道要做什么做可逆动作。DM - 数据仓库 - 我正在使用 MSSQL、Visual Studio - 我该怎么办?只是将每个数据集市合并到数据仓库中并手动删除冗余?

0 投票
1 回答
848 浏览

oracle - 事实表 - 选择不同的?

在我的存储数据模型中,我得到了以下关系:

root_tbl -- 1:n -- entry_tbl -- n:1 -- action_tbl

还有一些表格,但这涵盖了基础知识。好的,所以基本上根表中的一个 ID 在条目表中有几个数据集。

示例数据:

到目前为止一切都很好......使用这个数据模型很容易回答诸如有多少记录将“英国”作为国家和行动“10”等问题。现在我想把这些数据放到一个事实表中,但我的问题是这三个表的关系。例如,我是否会使用 entry_tbl 的记录作为事实,而不是每次计算国家、用户或产品时都必须在 ID 上进行选择不同。

事实表或多或少看起来像这样(想象一下字符串作为外键):

这意味着我会有很多冗余数据。

这些解决方案有什么办法吗?事实表将包含 ~ 300 - 500m 行。

我希望你明白我的意思。如果有什么不清楚的随时问

问候托马斯

0 投票
1 回答
785 浏览

java - 无法从从 java 程序运行的 shell 脚本中获取输出

我正在从 java 程序执行 shell 脚本,在该 shell 脚本中,我连接到数据集市服务器并执行 resmgr 命令,但我无法获得 resmgr 命令的输出,如果我从命令行运行相同的命令,我能够得到输出。

外壳脚本:

Java程序:

0 投票
0 回答
65 浏览

database - 包含不应汇总的数据的数据集市

如何构建具有以下问题的数据集市表:

尺寸表:

人。

时间(时、分、日、周)。

事实表:

group_of_indicators

问题是,如果我想在一周内从一个人那里获取信息,我无法添加每日,因为获取此信息的方式不同。换句话说,信息是不可概括的。

在给定时间内与所有人相同,不可能添加每个人来获取他们的指标,因为获取组信息的方式不同。

是否可以设计具有这些限制的数据集市?如果答案是肯定的,如何?

提前致谢

0 投票
2 回答
332 浏览

data-modeling - 累积快照表中可以包含多个日期吗?

我试图理解维度建模。在阅读维度建模书籍时,我创建了一个星型模式。

事实表是一个累积快照表,它有多个日期列,这些列使用代理键链接到日期维度。

我确实有一个定义明确的过程,我正在尝试为其制作这个星型模式。我在每个步骤的事实表中都有一个日期字段,因为我需要准备像报告和活动报告这样的漏斗。所以问题真的是

这个对吗?事实表可以多次引用同一个日期维度表吗?

我在互联网上看到的例子似乎表明这是正确的,但我很难让它与 Pentaho 报告一起工作。所以我不确定这是设计问题还是我在 Pentaho 中没有正确执行的操作

0 投票
1 回答
546 浏览

mysql - 数据集市星型架构开发解决方案

我必须将数据库翻译成 DM,但我有一些疑问,这是数据库架构:

http://i.stack.imgur.com/PHha1.png

这是一个简单的数据库,用于存储作者、书籍和各种其他东西(作者表的外键是错误的,表“book”作为另一个字段称为 year)。我应该建立一个 DM 来分析作者多年来的工作方式(合著者和书籍)。我什至想添加一种方法来查看作者的引用...我正在构建的 DM 是这样的:

http://i.stack.imgur.com/MPCTL.png

现在我的疑问是:我如何在这个数据集市中添加引用?

PS 引用我的意思是引用作者的书,我正在使用kettle和penthao

0 投票
1 回答
208 浏览

sql - 字符串作为星型模式中的主键

我们正在创建一个由大约 8 个星型模式组成的数据集市,每个模式代表一个业务事件、流程或报告数据集。我们有交易、快照和累积快照模式的同等组合。我们打算在大多数事实表中用作主键的值是 ContractID,但是在源数据库中,这是一个格式为“X12345.001”的字符串。

我已经阅读了一些关于使用字符串作为 PK 的相互矛盾的意见:

字符串作为 SQL 数据库中的主键- 本文中的最佳答案表明它可以,但问题不是数据集市特定的。

字符串作为主键?- 本文中的最佳答案是坚决反对使用字符串作为 PK。

数据集市的内容永远不会很大(所有星的低数百万行,永远不会数十亿)。使用当前的 PK (ContractID) 会更省力,因为这将在所有表中保持一致,但我担心性能。问题是字符串是否可以用作数据集市中的主键。

谢谢

0 投票
1 回答
99 浏览

hadoop - rdbms 和大数据进入数据集市?

我在另一端有一个 RDBMS(SQL Server/Oracle)和一个 Hadoop 数据库。主键“客户”在两个数据存储中都很常见。

几个问题:

  1. 是否有可能拥有一个可以从 RDBMS 和大数据中提取数据并生成报告的数据集市?什么是工具示例?
  2. 数据集市本身是否需要成为 RDBMS 存储,或者它可以是一些内存中的东西?
  3. 在这种环境中运行数据分析的最佳方式是什么?
  4. 数据可视化呢?

或者我应该将所有数据放入 RDBMS 数据仓库,然后解决这些问题?