问题标签 [data-warehouse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 大数据量的数据库选择?
我即将开始一个应该有一个相当大的数据库的新项目。
表的数量不会很大(<15),大部分数据(99%)将包含在一个大表中,几乎是插入/只读(无更新)。
一张表中的数据量估计会以每天 500.000 条记录的速度增长,我们应该至少保留1 年的数据,以便能够进行各种报告。
需要有(只读)复制数据库作为备份/故障转移,并且可能用于在高峰时间卸载报告。
我对那种大型数据库没有第一手经验,所以我问那些拥有哪个数据库的数据库是这种情况下的最佳选择。我知道Oracle是安全的选择,但如果有人有类似设置的Postgresql或Mysql经验,我会更感兴趣。
database - 小型数据仓库的免费数据库
对于相对较小的数据仓库系统,您会使用哪个免费数据库?
是否有任何“特殊”数据库,例如免费提供的多维数据库?
哪个免费的关系数据库最适合这项工作?
我所说的数据仓库系统是指一个将接收一些插入、很少更新、几乎没有删除和大量复杂选择的系统。以星型模式结构化(如果数据库是关系型的)。
小的意思是主事实表中大约有 100.000 条记录,可能是 10 个维度,最大的包含 5.000 条记录。
免费我的意思是免费的内部商业用途。
编辑:由于到目前为止我大多只得到一个免费数据库列表,让我指定一些有趣/需要的功能:
- 外连接(必须)
- inlineviews / subselects(几乎必须)
- 物化视图(不错)
- 智能查询优化器(越智能越好)
- 支持维度、汇总、多维数据集查询(不错)
- 解析函数(oracle中的名字,不知道在其他数据库中是如何命名的)(不错)
sql-server-2005 - 刷新 MS 数据仓库多维数据集时出错
我们有一个多维数据集,我们正在填充源表中的数据。为了让数据反映我们正在调用“分析服务处理任务”组件。在刷新多维数据集时,我们收到以下错误。
说明:OLE DB 错误:OLE DB 或 ODBC 错误:通讯链路故障;08S01。结束错误错误:2009-03-13 02:26:11.24 代码:0xC11F000C 来源:处理 LedgerTransactions01 多维数据集分析服务执行 DDL 任务描述:OLAP 存储引擎中的错误:维度发生错误,ID 为“Dim Item” V',正在处理“dimItem”的名称。
多维数据集在 SQL Server 环境中运行,并且此问题并非总是发生。
sql - 有效存储 7.300.000.000 行
您将如何解决以下存储和检索问题?
每天(365 天/年)将添加大约 2.000.000 行,每行包含以下信息:
- id(唯一的行标识符)
- entity_id(取值介于 1 和 2.000.000 之间)
- date_id(每天递增一个 - 取值在 1 到 3.650 之间(十年:1*365*10))
- value_1(取值介于 1 和 1.000.000 之间)
- value_2(取值介于 1 和 1.000.000 之间)
entity_id 与 date_id 结合是唯一的。因此,每个实体和日期最多可以添加一行到表中。数据库必须能够保存 10 年的每日数据(7.300.000.000 行 (3.650*2.000.000))。
上面描述的是写入模式。读取模式很简单:所有查询都将针对特定的 entity_id 进行。即检索所有描述 entity_id = 12345 的行。
不需要事务支持,但存储解决方案必须是开源的。理想情况下,我想使用 MySQL,但我愿意接受建议。
现在 - 你将如何解决所描述的问题?
更新:我被要求详细说明读写模式。每天将在一批中完成对表的写入,其中将一次性添加新的 2M 条目。读取将连续进行,每秒读取一次。
data-warehouse - Jitterbit 作为 ETL 工具
有人用Jitterbit作为 ETL 工具吗?任何评论/教程?
sql - 我将如何设计一个数据仓库来使用 SSAS 将数据存储在多维数据集中?
我在数据库中有这样的结构
| 角色ID | 角色类型ID | 个人ID | 组织ID | 从日期 | 截止日期 |
每个角色仅对 FromDate 和 ToDate 之间的日期有效。
每个人都有姓名、性别和出生日期。
我想将此日期放入数据仓库以与 SSAS 一起使用。
在那里,我希望能够构建具有每个组织、每个角色类型、每个性别、每个年龄每个时间的角色数量的多维数据集。
我将如何设计一个 DW 来存储它,仅仅因为年龄和性别数据组合,我可能会得到大约 200 行,但是我还有角色类型和组织。
例如像行
|2009-01-01|RoleTypeID=员工|组织=总部|性别=男性|年龄=32|人数=17| |2009-01-01|RoleTypeID=员工|组织=总部|性别=女性|年龄=32|人数=12| |2009-01-01|RoleTypeID=员工|组织=总部|性别=男性|年龄=33|人数=18|
直觉告诉我我走错了路……</p>
ruby - 如何使用 Activewarehouse-etl 删除字段?
我正在解析一个 csv 文件并尝试将其发送到一个字段少于原始 csv 文件的表。如果我将额外字段设置为空,如何删除那些多余的逗号?
这是原始的 csv 格式:
这是最终格式:
注意名字和姓氏缺少逗号。
这是暂定的行处理器:
sql-server - 使用 SSIS 将视图转换为表
使用 SSIS 将“db1”中的复杂视图转换为“db2”中的表是一个好主意。
将视图转换为表格的目的是使报表更快。
有什么缺点或风险吗?
sql-server - 奇怪的更新行为
在我的数据仓库存储过程的一部分中,我有一个将旧项目数据与新项目数据进行比较的过程(旧数据在表中,新数据在临时表中)并更新旧数据。
奇怪的是,如果旧数据为空,则更新语句不起作用。如果我添加一个 is null 语句,则更新工作正常。我的问题是,为什么这不像我想象的那样工作?
多个更新语句之一:
sql - 数据仓库暂存区内的结构
我们正在为一家银行开发一个数据仓库,并且几乎遵循标准的 Kimball 临时表模型、星型模式和 ETL 来通过流程提取数据。
Kimball 谈到了使用暂存区进行导入、清理、处理和一切操作,直到您准备好将数据放入星型模式。在实践中,这通常意味着将数据从源上传到一组表中,几乎没有修改,然后选择性地通过中间表获取数据,直到它准备好进入星型模式。这对单个实体来说是很多工作,这里没有单一的责任。
我以前工作过的系统对不同的表集进行了区分,达到了以下程度:
- 上传表:原始源系统数据,未修改
- 暂存表:中间处理、类型化和清理
- 仓库表
您可以将它们粘贴在单独的模式中,然后为存档/备份/安全等应用不同的策略。其他人之一曾在一个仓库工作,那里有一个StagingInput和一个StagingOutput,类似的故事。整个团队在数据仓库和其他方面都有很多经验。
然而,尽管如此,纵观 Kimball 和网络,似乎完全没有关于为暂存数据库提供任何类型的结构的书面文件。如果相信 Kimball 先生会让我们所有人都将分期工作作为这个庞大的深黑色非结构化数据池,那将是可以原谅的。
当然,如果我们想为暂存区添加更多结构,如何去做是很明显的,但似乎没有任何关于它的文章似乎很奇怪。
那么,外面的其他人都在做什么呢?只是上演这么大的非结构化混乱还是人们有一些有趣的设计?