问题标签 [data-import]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
280 浏览

solr - solr 数据导入搜索

我是 solr 的新手。我想搜索数据库。我能够导入值并对其进行索引。但是在搜索时,似乎有必要在搜索查询中提及字段名称。如何在不指定字段名称的情况下完成它。

0 投票
2 回答
7179 浏览

pentaho - 是否可以按顺序执行 pentaho 步骤?

我有一个 pentaho 转换,它由例如 10 个步骤组成。我想为 N 个输入参数启动此作业,但不是并行,每个作业评估应在之前的转换完全完成后开始(在事务中完成并提交或回滚的过程)。Pentaho可以吗?

0 投票
3 回答
899 浏览

sql-server - SQL Server 数据导入

我们正在设计从 MAS200 等外部源将数据导入到我们的生产 SQL Server 2005/2008 数据库中。源将是一个事务性数据库并且是安全/隔离的。我们需要使我们的数据库与源保持同步,以便定期进行数据同步。

我们可以自由询问任何类型的源数据——比如 CSV、txt 文件的形式,或者甚至将源数据放在另一个具有类似结构的 SQL 数据库中。我们需要选择导入数据的最佳方式——它是周期性的,可以每小时或每天完成一次。

根据我的经验,我相信将源数据保存在 SQL 数据库中可能是最好的入门方式。这是迄今为止我们得出的粗略设计 -

  1. 定期源数据库将在外部填充(不是我们的部分)
  2. 预处理:抛光源表数据(即修剪、查找) - 通用数据格式化和转换
  3. Fetch:创建一个 CURSOR 来遍历记录。我们计划更新现有数据并插入新数据,因此我们将需要至少两个 CURSOR 循环一一进行。
  4. 填充:在 CURSOR 循环内记录将被更新/插入
  5. 后处理:再次进行一些最后的润色和查找映射(即用 id 替换代码)
  6. 检查:最后,对表进行一致性检查,以确保导入数据的完整性

总而言之,我们将打破存储过程中的步骤,然后创建一个 SQL 作业,将按照这些步骤一一进行。我知道有很多方法可以做到这一点,SSIS、数据导入向导等。但我们需要保持它非常简单、易于移植、更少依赖和灵活以应对未来的变化。

注意:数据将是巨大的 - 我们上次进行类似设置时需要几分钟(大约 20-25 分钟)才能完成整个数据导入过程,因此我们安排了每小时一次的数据导入。

谢谢你。


更新#1: 我知道使用 MERGE 命令似乎是最好的。但如果我必须为 SQL Server 2005 创建它?我相信它适用于 2008 年以后。我找到了一个链接-

http://sqlserver-tips.blogspot.com/2006/09/mimicking-merge-statement-in-sql.html

2005年还有什么想法吗?

0 投票
2 回答
5261 浏览

mysql - 在 VB.net 中读取和解析大型分隔文本文件

我正忙于一个应用程序,它读取大小从 5mb 到 1gb+ 的空间分隔日志文件,然后将此信息存储到 MySQL 数据库中,以供以后根据文件中包含的信息打印报告时使用。我尝试过/发现的方法有效,但速度很慢。

难道我做错了什么?还是有更好的方法来处理非常大的文本文件?

我尝试使用 textfieldparser 如下:

这有效,但对于较大的文件非常慢。

然后,我尝试根据以下函数使用与文本文件的 OleDB 连接以及我事先写入目录的 schema.ini 文件:

schema.ini 文件:

任何人都知道如何更快地读取这些文件?

-edit- 更正了上面代码中的一个错字

0 投票
1 回答
45 浏览

sql-server - 修改表后的 SQL Server 数据导入

我有一个数据库备份,我将其导入 SQL Server 并通过添加一些列进行了一些更改。没有删除任何现有的列,但添加了一些额外的列。

现在我希望再次导入同一个数据库,这样我就拥有了在添加列时输入到旧数据库中的所有最新数据。

实现这一目标的正确、有效和高效的方法是什么?

感谢您的建议。

0 投票
1 回答
1246 浏览

mysql - 如何在mysql和php中使用dmoz的rdf数据?

我已经通过网络搜索,但仍然无法得到可靠的答案。我的目标是利用 dmoz 的rdf 数据,所以这里有 2 个问题:

  1. 如何将rdf导入mysql?(可以使用任何可靠的工具吗?)

  2. 如何通过 SPARQL 使数据可查询?(我应该使用什么组件或查询引擎)

据我所知,我需要基于Redland RDF 库构建存储,然后我可以使用 SPARQL 查询它。但是进一步阅读redland,他们没有一个好的php文档。那些缺失的差距让我感到困惑,因为我对 rdf 技术还很陌生。

0 投票
1 回答
1812 浏览

ruby-on-rails - Rails 3.1 中数据导入文件的正确位置(自定义 rake 任务)

我正在尝试运行此自定义 rake 任务以将数据导入我的 Rails 3.1 应用程序:

我将文件保存为 import_users.rake 并将其放在我的应用程序的 lib/tasks 目录中。

但是,当我尝试rake import_users在命令行中运行时,出现此错误:

No such file or directory - users.txt

我将 users.txt 放在与 .rake 文件(lib/tasks 目录)相同的目录中,这是正确的位置吗?

0 投票
1 回答
951 浏览

matlab - Matlab 导入数据精度

我正在尝试将 importdata 用于包含精度高达小数点后 11 位的数据的几个数据文件,Matlab 似乎认为我在使用 importdata 时只对前 5 位感兴趣,有没有我可以使用的替代方法加载我的数据,还是定义我希望加载数据的精度的方法?

0 投票
1 回答
311 浏览

matlab - Matlab 导入数据

我目前正在编写一段代码,它应该使用 importdata 导入文本文件并计算列数,我认为 cols() 函数就足够了,但似乎所有导入的数据都存储为双精度,表示我无法执行此操作。

难道我做错了什么?我认为文本文件中的数据将存储在矩阵/数组中?

0 投票
1 回答
1088 浏览

c# - 在 ASP.NET (MVC) 中从 CSV/Excel 导入期间规范化数据的推荐方法是什么?

我知道 Stack Overflow 上有一千个与数据导入相关的问题,如果在某个地方已经有人问过这个问题,请接受我的歉意,但我想知道是否有人可以建议在从 CSV/Excel导入期间用于规范化数据的任何久经考验的解决方案在 C#/ASP.NET MVC 3+ 中。

我可以编写一些代码来完成这项工作,但想知道是否有任何开源库或工具可以帮助解决这个问题。

我感兴趣的领域如下:

导入数据时,我偶尔需要对一些字段进行规范化,一个简单的示例如下所示:

我的输入可能是:

我的表结构可能是

如果职位不存在,我希望在我的 JobTitles 表中创建它并返回 Id。如果确实存在,我想存储 ID。

总之,我的问题是:

  • 有没有我应该采取的技术或方法来做到这一点?
  • 是否有任何开源/商业库可以处理这个问题 - 重新发明轮子没有意义