问题标签 [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 存储过程或代码
我不是在征求意见,而是在寻求文件方面的更多信息。
我们有很多数据文件(XML、CSV、Plantext 等),需要对它们进行处理、数据挖掘。
首席数据库人员建议使用存储过程来完成任务。基本上,我们有一个临时表,文件在其中被序列化,并保存到一个 clob 或 XML 列中。然后从那里他建议进一步使用存储过程来处理文件。
我是具有 db 背景的应用程序开发人员,在应用程序开发方面更是如此,我可能有偏见,但在数据库中使用这种逻辑似乎是个坏主意,我无法找到任何文档来证明或反对我所指的内容就像将汽车放在火车轨道上以拉动货物一样。
所以我的问题是:当我们谈论正则表达式搜索、搜索和替换 clob 中的数据、dom 遍历、递归时,数据库(Oracle、DB2、MySQL、SqlServer)的性能如何?在相同的问题上,与 Java、PHP 或 C# 等编程语言相比。
编辑
所以我正在寻找的是关于特定编程语言与 DBMS 的比较/运行时分析的文档,特别是字符串搜索和替换、正则表达式搜索和替换。XML Dom 遍历。递归方法调用的内存使用情况。尤其是在遇到 10 到 100 GB 的数据时,它们的扩展能力如何。
r - 用因子替换范围内的数字
给定一个数据框列,它是一系列整数(年龄),我想将整数范围转换为序数变量。
我当前的代码不起作用,我该怎么做?
r - 从文件中读取特定的、模式匹配的行
我有一个制表符分隔的文件,包含多个表,每个表都以标题为标题,例如“Azuay\n”、“Bolivar\n”、“Cotopaxi\n”等,每个表由两个换行符分隔。在 R 中,我如何读取此文件并仅选择对应于例如“Bolivar”的表(即指定的行),而忽略对应于“Cotopaxi”的表和对应于“Azuay”的表。
注意。我不想修改 R 之外的表格。
数据看起来像这样。该文件是制表符分隔的。
java - 聚合和滑动窗口实现的java框架
我有一个事件流和一个 key-val 存储。值大小受 4Kb 限制。事件发生率不是很高——一天最多几百个。
在这个值中,我需要存储一个数据结构的序列化表示,它提供了一种有效的机制来读取、存储和更新为期 3 个月的聚合事件计数,每天和每周聚合以及每小时 1/2 的滑动窗口。
该解决方案需要针对简单的事件计数聚合和事件计数标准偏差有效地执行以下任务。(以下所有任务的最长期限为3 个月):
- 不断更新(以惰性方式 - 随着相应事件的到来) - 如果最新计算的聚合太旧 - 抛出过时的数据并创建新的聚合
- 由读取请求触发的更新(用户请求一些信息,例如特定用户的事件计数,单个用户的事件计数标准偏差等),以防最新计算的聚合太旧 - 抛出它们
我想知道:是否有任何 java 开源框架可以帮助实现上述内容?
我也很欣赏设计建议:设计模式等。
使用标准 java API 从头开始实施该解决方案并不难,但在这样做之前,我会很感激一些开源框架建议(如果有的话)。
除了一些理论文章、基于 SQL 的解决方案和 IBM(称为SPL的非开源工具包)之外,谷歌搜索解决方案并没有将我带到任何地方。
matlab - 在 Matlab 中用逗号分隔字符串
我正在寻找在 Matlab 中用逗号分隔文本文件中的字符串,到目前为止,我已经使用了“csvwrite”和“dlmwrite”。
他们通常采用这种形式:
为了澄清,我想要做的是:
打开一个如下所示的文本文件:
对此:
matlab - MATLAB 中的错误处理和插值
我目前正在研究一个 MATLAB 脚本,该脚本可以从运动传感器中发现错误,其中数据“翻转”半球并记录它应该是什么的倒数。除此之外,还有一个过渡期,传感器在此“翻转”过程中继续记录值。
下面是一个示例(x 轴是以样本为单位的时间,y 是以英寸为单位的传感器与传感器的距离):
我目前的进展如下:
数据错误已被抑制,但仍与数据集的其余部分不一致。有人可以提出改进的方法吗?
我的代码如下:
php - 跨多个 CSV 文件报告
这可能是一个模糊的问题。我每天都会收到 4 个 CSV 文件,每个文件大约有 500k 行。我需要对它们执行“加入”和“在哪里”等价的 RDMS 操作来创建每日报告。例如,工作流程可能是:
- 根据具有 ID 的列连接 2 个 CSV 文件
- 根据日期列向下过滤数据集
- 根据某些 where 条件将新过滤的数据集与另一个 CSV 文件连接起来
- 根据更多标准进一步过滤它们
- .... // 重复
- 将最终数据集输出到 CSV 文件中
我正在考虑编写一个 PHP 脚本来:
- 将每个 CSV 文件加载到 MySQL 等关系数据库中
- 使用 SQL 执行连接和 where 条件
- 将结果加载到临时表中
- 重复 2 和 3
- 将最终数据加载到表中
- 将表导出为 CSV 文件。
你认为最好的方法是什么?
java - 简单的基于 java 的工作流管理器/数据工作流,能够启动 ext。应用程序,调用网络服务等
首先,如果stackoverflow上已经有像我这样的问题,很抱歉,但我还没有找到它。实际上我不知道我可以使用哪些标签来搜索我需要的解决方案。
基本上,我需要一个工具/软件,它可以在整个过程中使用多个工具/操作来管理数据(对象)流。当然,现有的 BPM/工作流平台工具之一可能可以做到这一点,但它们似乎对我的要求来说太复杂了。
我有一个用 JPA/Hibernate 构建的“静态”数据模型。然后我需要更改该静态模型以便对其使用不同的处理功能。该函数可以是一些 java 类、Web 服务或外部应用程序(支持批处理模式)。之后我需要捕获这些函数的输出并进行一些可视化,绘制一些图表等。我可以假设所有这些处理函数都可以访问静态模型,并且他们可以将其更改为特定的模型,因此无需将输入传递给他们。另一方面,它们的输出应该由主要的“工作流管理器”捕获。
还有一件事,整个过程应该在没有任何用户交互的情况下自动运行(也许将来会改变,但现在看看并呈现)。在流程开始之前,管理员应该定义使用哪个“处理功能”,仅此而已。还有一件事……最好是在更改数据库状态时触发整个过程,但这并不重要,例如,我可以通过调用 Web 服务来启动它。
问题是:我应该使用现有的 BPM/Workflow 工具之一,例如 jBPM 或 Activiti,自己编写一个简单的“工作流管理器”还是使用比 jBPM/Activiti 简单得多的现有工具(有吗?) . 当然我更喜欢最简单的方法......
非常感谢您的任何反馈。
php - 最好用我的日期案例在 PHP 中处理大型数组
我在 PHP 中有一个大数组,大约有 168000 个键和值。键中有日期(Ymd)和小时,值中有数值。所以 value 只是一个数字。密钥为 Ym-d_H 格式。数组如下所示:
我需要找到上个月、去年、当年、当月等的总和。找到它的最佳方法是什么?请建议。
awk - 用 awk 重新排列许多列
我有一个包含超过 800 列的文件,我想执行一些温和的列重排。特别是,我需要删除几列,并将最后一列作为第一列。
我以编程方式生成一个简单的 awk 脚本来执行重新排列。它如下所示:
在一台计算机上,这工作得很好。在另一台计算机上,它仅在我选择了几百列时才有效,但对于更多列,我会得到核心转储。有什么办法可以让这个更便携吗?