问题标签 [etl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
3659 浏览

database - ETL 工具和构建工具

我熟悉软件自动化构建工具(例如 Automated Build Studio)。现在我正在研究 ETL 工具。

我想到的一件事是,通过使用软件构建工具,我可以在 ETL 工具中做任何我能做的事情。ETL 工具专为数据加载和操作而定制,需要大量脚本才能完成这项工作。另一方面,软件构建工具用途广泛,足以胜任任何工作,包括编写脚本以从任何格式提取、转换和加载任何数据到任何格式。

我对吗?

0 投票
3 回答
1321 浏览

etl - 将数据从一种数据库方案迁移到另一种数据库方案时的最佳实践?

很多时候,当我在一个项目上工作时,我发现自己在查看数据库方案并且不得不导出数据以使用新方案。

很多时候有一个数据库,其中存储的数据相当粗糙。我的意思是它存储了许多未经过滤的字符。我发现我自己编写了自定义 php 脚本来过滤这些信息并创建一个漂亮干净的 UTF-8 CSV 文件,然后我将其重新导入我的新数据库。

我想知道是否有更好的方法来处理这个问题?

0 投票
4 回答
4824 浏览

etl - Pentaho ETL 和数据分析器是不错的选择吗?

我一直在寻找 ETL 工具,在谷歌上发现了很多关于 Pentaho Kettle 的信息。

我还需要一个在 Star Schema 上运行的数据分析器,以便业务用户可以使用并生成任何类型的报告或矩阵。PentaHo Analyzer 再次看起来不错。

应用程序的其他部分将使用 java 开发,并且应用程序应该与数据库无关。

Pentaho 是否足够好,或者我应该检查其他工具。

0 投票
5 回答
2608 浏览

c# - 是否可以从 c# 创建 SQL Server 本机文件(如 BCP 本机格式)

我们正在升级一个已有 15 年历史的代码库,需要创建一些本机 BCP 格式的数据文件。

在新系统中,理想情况下,我们希望利用 C# DataTable 对象中的数据来创建原生 BCP 格式的数据文件。

这可以做到吗?如果可以,最好的方法是什么?

0 投票
1 回答
99 浏览

rss - 如何可视化设计用于程序提取的混搭查询

我正在开发一个从互联网页面获取各种输入的应用程序,而每个信息片段都来自不同的位置(混搭)。我想通过可视化工具生成混搭构建块(片段)。你知道有什么类似的东西可以用于这样的项目吗?(已制作控件、示例代码、文章等)首选的开发环境是 .NET - 但不是强制性的。

0 投票
1 回答
908 浏览

sql-server-2005 - SSIS 包因平面文件的新结构而失败

SSIS 包只是从 txt 文件导入到 sql 数据库。当我们制作包时使用旧文件并且执行良好。旧的源文件得到(10 列)新的源文件得到 15 列。当源文件更改失败时。[平面文件源 [1]] 错误:数据转换失败。列“第 10 列”的数据转换返回状态值 4 和状态文本“文本被截断或目标代码页中的一个或多个字符不匹配。”。列的变化产生了一个问题,如何以更好的方式解决这个问题?如果新旧格式文件都需要用同一个包处理。

谢谢

0 投票
2 回答
2299 浏览

powershell - 转换文件的最佳文件解析解决方案是什么?

我正在为我们的企业导入例程寻找自定义文件解析的最佳解决方案。我想基本上将一种文件格式更改为标准文件格式,并有一个将数据导入数据库的例程。我需要能够为每个客户创建自定义脚本,因为很难让客户遵守标准或模板格式。到目前为止,我已经查看了 PowerShell 和 Iron Python 来做到这一点,但我不确定这是我想要走的路。我还查看了一些工具,例如 Talend,它是一种拖放式工具,就灵活性而言,它可能会或可能不会给我我想要的东西。我们是一家 .NET 商店,过去已经创建了自定义代码来执行此操作,但我需要更快地创建然后每次获得新文件格式时编写自定义解析函数的代码。

0 投票
1 回答
520 浏览

sql-server - SQL Server 2005 SSIS 校验和包

伙计们,

我们正在构建一个 ETL 流程,以在 64 位操作系统上使用 SQL Server 2005 SSIS 加载中型维度数据仓库。我们计划使用 SSIS 的 Checksum 包来管理 SCD(缓慢变化的维度)。

尽管我们正在使用 SSIS Checksum 包进行概念验证,但我在实际生产场景中使用它并不舒服。我听说它不适合 64 位操作系统。此外,由于它不是开箱即用的 SSIS 产品,因此安装该软件包会很麻烦。

你们怎么看?我应该使用老式的 T-SQL 校验和还是试试那个包?有没有人在大容量 ETL 过程中使用它的经验?

0 投票
6 回答
7539 浏览

java - Web Service 是否适合 ETL 目的?

我的公司正在考虑使用 Web 服务作为 ETL 过程的手段。但是,我认为 Web 服务不适合这个目的,原因如下: 1. Web 服务在生成大型 xml 时可能会消耗大量内存。2. xml 是一种臃肿的格式。3. 如果服务器需要大量时间来生成数据,可能会超时 4. 文件大小限制?(对于 Windows,它是 2Gb,如果我没记错的话)

我不是网络服务专家,所以我需要你的意见。:)

谢谢。

0 投票
4 回答
4955 浏览

etl - DTS 与 SSIS 与 Informatica 与 PL/SQL 脚本

过去,我将 Informatica 用于一些 ETL(提取转换加载),但发现它相当慢,通常用一些 PL/SQL 脚本替换它(当时正在使用 Oracle)。

(根据答案中的反馈修改问题)

我认为 DTS 是微软在 SSIS 之前的 ETL 工具。

  1. 将使用 DTS 的现有应用程序转换为 SSIS 会很困难吗?
  2. 鉴于 SSIS 是 Microsoft 工具并与 SQL Server 紧密集成(实际上是其中的一部分),使用它有什么缺点吗?我没有看到任何效率问题,因为我想你可以在 SSIS 中做任何没有它关于 ETL 的事情。