问题标签 [data-warehouse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
520 浏览

sql-server - 跟踪 MERGE 命令及其 OUTPUT 做了什么

我正在使用以下(长)SQL 语句修改类型 2 维度:

我将它作为加载我的数据仓库的 ETL 的一部分运行。我想要构建的是一个详细的日志系统,可以跟踪日志表/文件等中的所有更改。

在 MERGE 和 INSERT 中使用的 OUTPUT 期间实际完成的所有工作都在幕后进行。我想跟踪参与此查询的所有列和值。

我有什么方法可以捕获这些数据吗?

0 投票
4 回答
1793 浏览

sql-server - 劳动节与。感恩

我正在为我的仓库创建一个日历表。我将使用它作为所有日期字段的外键。

下面显示的代码创建表并填充它。我能够弄清楚如何找到阵亡将士纪念日(5 月的最后一个星期一)和劳动节(9 月的第一个星期一)。

我很难弄清楚感恩节(11 月最后一周的星期四)。

编辑:根据John Sauer 的评论进行更正

感恩节是十一月的第四个星期四。然而,经过几年的检查,我发现它竟然也是 11 月最后一个完整周的星期四。

0 投票
4 回答
8173 浏览

sql-server - 数据仓库的日历表

对于我的数据仓库,我正在创建一个日历表,如下所示:




这是此命令的输出



我已经看到数据架构师以各种方式实现了类似的结构。

我的问题是:我可以在这个表结构中添加哪些其他数据仓库/维度样式有用的信息?

0 投票
2 回答
605 浏览

sql - OLAP 如何处理数字范围的维度?

作为序言,我根本不熟悉 OLAP,所以如果术语不正确,请随时提供更正。

我正在阅读有关 OLAP 的信息,它似乎都是关于交易空间以换取速度,其中您预先计算(或按需计算)并存储有关您的数据的聚合,并按某些维度进行键控。我了解这对于具有离散值集的维度是如何工作的,例如 { Male, Female } 或 { Jan, Feb, ... Dec } 或 { @US_STATES }。但是对于具有完全任意值的维度,例如 (0, 1.25, 3.14156, 70000.23, ...) 呢?

OLAP 的使用是否排除了在命中事实表的查询中使用聚合,还是仅用于绕过可以预先计算的内容?像,任意值的任意聚合仍然需要即时完成?

任何其他有关了解更多有关 OLAP 的帮助将不胜感激。乍一看,Google 和 SO 似乎都有些枯燥(与其他更受欢迎的话题相比)。

编辑:被要求提供任意值的维度。

  • 实验速度:1.256 m/s、-2.234 m/s、33.78 m/s
  • 交易价值:120.56 美元、22.47 美元、9.47 美元
0 投票
4 回答
2057 浏览

ruby-on-rails - 使用 ActiveRecord 与数据仓库式表交谈?

随着我的 Rails 应用程序的成熟,越来越明显的是它具有强大的数据仓库风格,只缺少一个事实表来使所有内容都变得清晰。

最重要的是,我刚刚阅读了Ruby 最佳实践的第 2 章(设计漂亮的 API)和第 3 章(掌握动态工具包)。

现在我想弄清楚如何最好地设计事实检索部分......

假设我有以下维度(应用程序中的现有模型):

  • 产品(包含资金)
  • 基金
  • 衡量(例如总持股、平均持股、平均曝光)

...还有一个很好的通用事实:

  • 事实(日期、值以及我的每个维度的外键 NULLable 列)

在某些方面,我将不胜感激获得一些建议:

  • 什么可以构成一个灵活的检索界面?
  • 如果我的 Facts 具有一个维度的 NULL(即全部或不关心)和 NOT NULL(特定)值,会发生什么?像:all? 还是应该适用一些约定?
  • 如何仅选择维度值的子集?还是排除一个子集?:only 和 :exclude?
  • 有没有人有创建named_scopes 来处理这个问题的经验?能够为每个感兴趣的维度链接一个明显的吸引力,但是如果我们得到 7 或 8 个维度,它会变得太笨重吗?

(我知道一个acts_as_fact插件被认为以某种形式存在(至少,在 RailsConf 2006 上有一些小嗡嗡声),但我找不到任何代码或关于它如何工作的描述。)

版本:Rails、ActiveRecord 2.1.2、Oracle 增强适配器 1.2.0

编辑:我查看了 ActiveWarehouse 并有一些保留意见: - 主分支自 2008 年 11 月以来没有提交,自 09 年 1 月以来根本没有任何活动;- 教程可以追溯到 2006 年,承认已经过时了,我的 404s;- 它似乎想要摆脱 ActiveRecord - 我的大部分应用程序将留在 AR 中,我认为目前我想要一个 AR 解决方案。

所以我会避开那个,谢谢!

0 投票
3 回答
388 浏览

linux - 用于用户文件的 Linux 数据仓库系统?

我在一所大型大学工作,我部门的大部分备份需求都由中央网络服务提供。但是,许多用户拥有大型文件(例如医学成像扫描)的集合,这些文件超出了他们可用的中央存储空间。

我正在寻求为部门资源提供改进的备份解决方案,并设置了一个 Linux 服务器,员工可以在其中存放这些收藏品。但是,我可以预见服务器中的存储被大量很少访问的文件所淹没。我有一个系统来处理这个问题,但想确保我没有重新发明轮子。

我的概念:

  1. 用户将文件复制到服务器。
  2. 计划作业将所有文件的完整最新副本保存在单独的存储机制上(目前为此指定了一个 1TB 外部驱动器)
  3. 一段时间未访问的文件将从服务器中清除,但仍保留在存储驱动器上,从而在实时环境中保持充足的空间。
  4. 一个简单的界面(可能是基于网络的)让用户可以访问他们所有文件的列表,他们可以从中请求他们需要的文件,这些文件从存储驱动器复制到实时服务器。复制文件后将发送电子邮件通知。

这个概念是基于我在以前的工作中听说但没有直接使用的 PACS(图片存档和通信系统)。这使用了类似的“近线”备份过程来访问大量数据,同时允许在不阻塞网络其他部分的情况下传输到本地机器。这与许多博物馆和学术图书馆使用的原则相似,它们的总“数据持有量”远大于直接访问书架上的数据。

是否有适合我要求的简单开源系统?是否有其他系统使用不同的范例,但仍能满足我的需求?

0 投票
1 回答
2156 浏览

sql - 链接的度量组和本地维度

仔细考虑我一直在阅读的东西。

根据克里斯韦伯的说法,

链接的度量值组只能与来自与源度量值组相同的数据库的维度一起使用。

所以我认为这意味着只要两个多维数据集共享一个数据库,一个链接的度量值组就可以与一个维度一起使用。所以我创建了一个新的多维数据集并添加了一个本地度量值组、一个本地维度和一个链接的度量值组。但是,即使它们在同一个数据库中,我也无法在链接的度量值组和本地维度之间创建关系。我收到以下消息:

当前数据库中非链接(本地)维度和链接度量值组之间的常规关系无法编辑。这些关系只能通过向导创建。此对话框可用于删除这些关系。

我看到我可以转到原始多维数据集并在那里添加维度,但下面的消息是否意味着我有替代方案?

我只知道这将是一件简单而琐碎的事情!谢谢阅读。

0 投票
4 回答
3415 浏览

database - 统计检测数据异常的最佳方法

我们的网络应用程序收集了大量关于用户操作、网络业务、数据库负载等的数据

所有数据都存储在仓库中,我们对这些数据有很多有趣的看法。

如果发生奇怪的事情,它可能会出现在数据的某个地方。

但是,要手动检测是否发生了异常情况,必须不断查看这些数据并寻找异常情况。

我的问题是:检测动态数据变化的最佳方法是什么,可以被视为“与众不同”。

贝叶斯过滤器(我在阅读垃圾邮件检测时看到过这些)是要走的路吗?

任何指针都会很棒!

编辑:为了澄清数据,例如显示数据库负载的每日曲线。这条曲线通常看起来与昨天的曲线相似。随着时间的推移,这条曲线可能会缓慢变化。

如果曲线每天都在某些范围内发生变化,那将会发出警告,这将是一件好事。

R

0 投票
2 回答
2670 浏览

data-warehouse - 事实星座图

我用 2 个事实表和 16 个维度表和 4 个公共维度表制作了一个事实星座模式。需要对维度表之一进行规范化,因为来自数据源的数据可以具有可变数量的行。我还能称它为在维度表中有分支的事实星座模式吗?

我希望你明白我想说什么。

干杯。

0 投票
2 回答
1119 浏览

data-warehouse - 对象数据库、商业智能和仓储

对不起,如果这似乎是一个新手问题,但我是数据仓库和商业智能世界的新手。

从我读过的内容可以看出,由于关系模型的限制,需要一个多维数据库。您需要对多维数据库做的任何事情都可以在具有非常复杂的查询和性能缓慢的联接和聚合操作的普通关系数据库上完成。

问题是当我们谈论对象数据库的商业智能时,我们是否需要相同的概念(多维数据库 - 数据仓库等)?对象数据库没有连接,因为对象之间的关系是由直接引用维护的。