问题标签 [data-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
483 浏览

java - Processing XML data for JSP

I have a form/calculator, which posts to itself some data, this data is then calculated by dispatching a servlet and the results are output as xml. The dispatcher code is shown below:

Have a few problems with what I'm doing at the moment though. Firstly, is it possible to use a remote URL as opposed to just locally? And how do I process the data, since I'm assuming that because it's a servlet, I can't just call it an XML document and use the DOM to grab the data I want.

Quite new to this Java stuff, don't even know what to google for exactly, so I'm kind of shooting in the dark with my current methods. Any help or directions would be greatly appreciated :P cheers

0 投票
2 回答
15283 浏览

c - 如何从c中的文件中读取特定的数据列

大家好,

我是 c 编程的初学者。我遇到了这个问题,并且已经花了相当多的时间在上面没有任何显着的进展。

我的问题是这样陈述的:

我有一系列扩展名为 (.msr) 的文件,它们包含十多个参数的测量数值,这些参数的范围从日期、时间、温度、压力……用分号分隔。数据值的示例如下所示。

每个文件的名称为 REG_2010-03-03,REG_2010-03-04,REG_2010-03-05,...,它们都包含在一个文件中。

  1. 我想从每个文件中提取日期信息,在这种情况下为 2010-03-03,第 3 列和第 6 列。

  2. 求第 3 列和第 6 列中每一列的统计平均值。

  3. 然后将结果存储在一个新文件中,该文件仅包含日期,以及上述列的计算平均值以供进一步分析。

它们将用 c 编写。

我真的在指望或您对这件事的帮助才能继续下去。

问候

0 投票
1 回答
541 浏览

c - 如何读取存储在目录中的不同文件并将其中的一些数据存储到一个文件中

这是我之前提出的问题的后续,在这里的一些人的帮助下,我能够开始使用我想要编写的功能,但我还没有完成它。这是我之前的问题:我有一系列扩展名为 (.msr) 的文件,它们包含十多个参数的测量数值,范围从日期、时间、温度、压力......冒号。数据值的示例如下所示。

每个文件的名称为 REG_2010-03-03,REG_2010-03-04,REG_2010-03-05,...,它们都包含在一个文件中。

  1. 我想从每个文件中提取日期信息,在这种情况下为 2010-03-03,第 3 列和第 6 列。
  2. 求第 3 列和第 6 列各列的统计平均值。 3. 然后将结果存储在一个新文件中,该文件只包含日期,以及上述列的计算平均值,以供进一步分析。

我现在的问题是:我希望能够打开包含 30 个扩展名为 .msr 的文件的目录。我想打开源文件,然后对于其中的每个文件,提取我之前解释过的所需信息,并为上面读取的每个文件存储日期(每个文件中的统一)和第 3 列和第 6 列的平均值在单个文件中。因此,目标文件将在每行包含三列,分别是日期、平均值(第 3 列)和平均值(第 6 列),由空格分隔,总共 30 行。下面是我开始使用的代码,希望您能提供有关如何实现它的指南。

就像你上面概述的那样。这是我想要实现的目标的大纲

1)打开包含文件的目录(这里是USB KEY)。2) 读取其中的所有 msr 文件名。3) 打开每个 msr 文件。4)提取日期(文件中的第一列),忽略时间和分隔符(5)提取数据1(第3列数据)6)提取数据2(第6列数据)7)计算第 3 列和第 6 列的平均值。8)输出到文件(日期,平均第 3 列,平均第 6 列) 9)关闭 msr 文件 10)关闭目录(如果可能)

0 投票
1 回答
154 浏览

php - 如何构建多源提要解析和数据整合守护进程?

我的任务是编写一个脚本(或者更好的是,一个守护进程),它必须做几件事:

  1. 从多个输入 xml 提要中抓取最新数据。暂时有 15-20 个提要,但我相信未来可能会增加到 50 个。Feed 大小在 500 KB 和 5 MB 之间变化(很可能不会超过 10 MB)。由于提要不是标准化格式,因此来自给定源的每个提要都必须有一个提要解析器,以便将数据统一为单一的通用格式。
  2. 将数据存储到数据库中,以便从提要中提取的每个数据单元仍然可用。
  3. 由于数据会随时间变化(例如,信息至少每小时更新一次),因此有必要对更改的数据进行存档。

在这种情况下被证明难以管理的另一件事(我已经一起破解了一些解决方案)是,在第 2 步期间,由于在多个表中插入数据的 SQL 查询量很大,数据库开始减速到爬行,这影响依赖于数据库的系统的其余部分(它是托管多个站点的专用服务器)。我什至无法进入第3步......

关于我应该如何解决这个问题的任何提示?需要注意的注意事项?任何能帮助我解决这个问题的事情都非常受欢迎。

谢谢!

0 投票
2 回答
190 浏览

algorithm - 我应该如何过滤这些数据?

我有一系列需要绘制的数据点。对于每个图形,由于错误可能需要丢弃一些点。一个例子如下: 替代文字

圆圈区域是数据中的错误。

我需要的是一种算法来过滤这些数据,以便通过用平线替换坏点来消除错误,如下所示:

替代文字

有没有特别擅长检测错误点的算法?你有什么建议可以为我指明正确的方向吗?

编辑:错误点是任何看起来与双方数据不一致的点。可以有很大的跳跃,只要跳跃后的数据看起来仍然一致。如果它在图的边缘,大的跳跃可能应该被认为是错误的。

0 投票
3 回答
871 浏览

java - 您如何处理数据处理的时区?

很好奇人们是如何解决这个问题的......我有一系列工作在一夜之间运行,它们根据当天的客户数据汇总报告。他们现在要求时区支持。

其中一份报告是..您昨晚有 x 个订单,但昨晚可能因时区而异。组织或处理数据以便考虑时区以使这项工作更容易的最佳方法是什么?

谢谢

0 投票
1 回答
94 浏览

data-storage - 用于在程序迭代之间保存数据的临时存储?

我正在开发一个像这样工作的应用程序:

  1. 它从许多来源获取数据,产生大约 500,000-1,500,000 条记录的池(取决于时间/天)
  2. 数据被解析
  3. 以某种方式处理部分数据以将其与预先存在的数据(从数据库中读取)进行比较,进行计算并将其存储在数据库中。然而,必须存储在数据库中的结果数据集的大小要小得多(与原始数据集相比),并且记录范围为 5,000-50,000 条。这个过程几乎总是更新现有数据,也许会添加更多记录。
  4. 然后,步骤 2 中的数据应该以某种方式保存在某个地方,以便下次获取数据时,有一个可用于执行计算的数据集,而无需触及数据库中预先存在的数据。我应该指出,这些数据可能会丢失,它不是不可替代的(如果需要,可以从数据库中读取关键信息),但它会加快下一次的进程。

应用程序组件可以(并且将会)在不同的计算机上(在同一个网络中)运行,因此必须可以从多个主机访问存储。

我曾考虑过使用 memcached,但我不太确定是否应该这样做,因为一条记录通常不小于 200 字节,如果我有 1,500,000 条记录,我猜它会超过 300 MB 的 memcached 缓存。 .. 但这对我来说似乎不可扩展——如果数据是那个数量的 5 倍呢?如果它只消耗 1-2 GB 的缓存来保持迭代之间的数据(这很容易发生)?

所以,问题是:哪种临时存储机制最适合这种处理?我没有考虑使用 mysql 临时表,因为我不确定它们是否可以在会话之间持续存在,并被网络中的其他主机使用......还有其他建议吗?我应该考虑什么?

0 投票
3 回答
2789 浏览

regex - 如何使用 perl 在一行中出现多次的方括号之间提取数据?

我有一行包含方括号数据的多个实例。

有没有人有一个好的正则表达式?所以我可以使用

谢谢!

0 投票
1 回答
565 浏览

linux - 在不使用 awk 的情况下将对列表转换为 shell 中的表

我有一个制表符分隔的对列表,如下所示:

我想使用 Linux 命令行工具将其转换为表:

我可以手动编写最少的脚本吗?

注意:我知道如何编写代码,谢谢,问题是关于预先存在的工具,可能使用最少的脚本胶水。除非程序很短,否则程序也awk算作“脚本”。

注2:这是一个学习问题。如果解决方案是短的还是长的,我不太在意(虽然更短是更可取的)。我想学习解决这个问题的其他方法。

如果我想以最快的方式解决这个问题,我不会在这里问这个问题,我会花 30 秒用我最熟悉的语言写三行。

0 投票
3 回答
811 浏览

python - 处理非常大(超过 30GB)的文本文件并显示进度的最佳方法是什么

[新手问题]

你好,

我正在处理一个超过 30GB 的巨大文本文件。

我必须对每一行进行一些处理,然后以 JSON 格式将其写入数据库。当我读取文件并使用“for”循环时,我的计算机在处理了大约 10% 的数据后崩溃并显示蓝屏。

我目前正在使用这个:

另外,我怎样才能显示到目前为止已经处理了多少数据的总体进展?

非常感谢大家。