问题标签 [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在单个输入上合并数据
我正在处理一些数据存储。但是经过预处理后,数据是这样的,例如:
格式就像INDEX|URL|TITLE|RANK|SLI
. 该值-1
表示该列没有特定值。可能有相同的重复条目URL
,将它们全部合并将完成记录。
是否有一种巧妙的技巧和技巧可以快速将这些记录组合成一个完整的文件?我不想对所有行进行迭代和循环重复以找到重复的行并合并。
编辑: 预期的输出是这样的:
编辑 2:
通过使用 Panda,root
如下所示,我可以合并数据列:
但是,有没有使用任何第三方库的快速方法?
javascript - CKEditor - 使用数据处理器删除脚本标签
我对 CKEditor 很陌生(两天前开始使用它),我仍在与一些配置作斗争,比如从编辑器中删除标签。
例如,如果用户在源模式下键入以下内容:
我想删除它。
查看文档,我发现这可以使用 HTML 过滤器来完成。我这么定义它但它不起作用。
img 部分运行良好,但不是脚本之一。我想我错过了什么。它甚至不显示脚本的警报消息。
任何帮助都会非常受欢迎:o)
multicore - 一次性处理和转换大数据的工具
我即将开始一个需要大量数据转换和处理操作的研究项目。一方面,数据相当庞大——原始数据集通常为 10GB——因此效率是一个问题。另一方面,这些操作中的许多都是一次性的,并且很少重新运行,因此构建可部署的应用程序是一种矫枉过正的做法。它不是一个用户应用程序,而主要是一个实验。
一些特点和限制:
- 大量的链式格式转换——JSON 和 XML 到表格格式,然后是一些补丁,然后是文本索引,然后导出到其他格式,等等。
- 我有一台多核机器,但没有几台机器,至少一开始是这样。
- 数据不能作为一个整体放在主内存中,根据我的经验,需要利用多个内核。
有哪些推荐的工具来处理这样的项目?我的偏好是:
- 轻松处理多种格式(JSON、XML、CSV)
- 支持多个来源和接收器(文本文件、档案、数据库)
- 使用多个核心
- 尽可能少的管理、部署问题等。
编程语言不是问题,我可以管理 Windows 或 Linux。谢谢!
regex - Perl Regex 从不规则的串口输出中获取数据
简要概述...我家里有一个油箱监视器,它通过串行端口输出数据,包括油箱中的油位。在大多数情况下,输出是一致的,但在小时和随机“特殊事件”上,它发送的内容略有不同。
这是一个从端口、换行符等转储的示例。作为原始示例。
我想从此输出中提取的是 'ull=' 后面的数字,在这种情况下为 000,但该数字始终是 3 位整数,并且始终具有前导 0,即。“033”或“001”或“259”
当它不以“HH:MM,ull=nnn”格式发送时,可以忽略输出,因为它最多只能持续 10 分钟,然后再次返回标准输出
使用我的电力监视器作为模板,它在类似的基础上工作,但我想出了更一致的输出......
这只是一直在后台运行。
我认为可能是字符串中的 ',' 或 '=' 让我感到困惑,因为我可以将字符串的其他随机部分放入变量中,但绝不是我需要的值。任何帮助将不胜感激,因为我似乎使用了我能想到的所有随机符号组合 {} * .!m\//g /\n !等等......还有什么都无济于事!
目前这是一个实验,因为我什至不能 100% 确定“ull”值是多少,但我希望它是从传感器到油箱中油表面的距离!时间会证明一切。
windows - IO 完成后的 Windows 线程切换延迟 - 微秒或毫秒
我正在尝试确定在 IO 操作完成时切换线程的大致时间延迟(Win 7、Vista、XP)。
我(想我)知道的是:
a) 线程上下文切换本身的计算速度非常快。(通过非常快,我的意思是通常在 1 毫秒以下,甚至可能在 1 微秒以下? - 假设一台相对较快的空载机器等)
b) 循环时间片量子约为 10-15ms。
我似乎无法找到有关(高优先级)线程变为活动/发出信号的典型延迟时间的信息 - 例如,通过同步磁盘写入完成 - 并且该线程实际上再次运行。
例如,我至少在一个地方读到,所有非活动线程都保持休眠状态,直到大约 10 毫秒的系统时间片到期,然后(假设它们准备就绪),它们几乎同时被重新激活。但是在另一个地方,我读到线程完成 I/O 操作与它变为活动/发出信号并再次运行之间的延迟以微秒为单位,而不是毫秒。
我的询问上下文与从高速摄像机捕获和连续流式写入 SSD 的 RAID 阵列有关,除非我可以在先前的写入在 1 毫秒内完成后开始新的写入(最好在平均为 1/10 毫秒),这将是有问题的。
任何有关此问题的信息将不胜感激。
谢谢,大卫
python - 并行处理大量数据
我是一名 Python 开发人员,具有很好的 RDBMS 经验。我需要处理相当大量的数据(大约 500GB)。数据位于 s3 存储桶中的大约 1200 个 csv 文件中。我用 Python 编写了一个脚本,可以在服务器上运行它。但是,速度太慢了。根据目前的速度和数据量,通过所有文件大约需要 50 天(当然,截止日期在此之前是很好的)。
注意:处理是您的基本 ETL 类型的东西 - 没什么可怕的幻想。我可以轻松地将其泵入 PostgreSQL 中的临时模式,然后在其上运行脚本。但是,再一次,从我最初的测试来看,这会变慢。
注意:一个全新的 PostgreSQL 9.1 数据库将是它的最终目的地。
因此,我正在考虑尝试启动一堆 EC2 实例以尝试分批(并行)运行它们。但是,我以前从未做过这样的事情,所以我一直在四处寻找想法等。
同样,我是一名 python 开发人员,所以 Fabric + boto 似乎很有希望。我不时使用boto,但从未使用过Fabric。
我从阅读/研究中知道,这对于 Hadoop 来说可能是一项很棒的工作,但我不知道,也负担不起雇用它完成的费用,而且时间线不允许学习曲线或雇用某人。我也不应该,这是一种一次性的交易。所以,我不需要构建一个非常优雅的解决方案。我只需要让它工作并能够在今年年底之前获得所有数据。
另外,我知道这不是一个简单的 stackoverflow 问题(类似于“如何在 python 中反转列表”)。但是,我希望有人读到这篇文章并“说,我做了类似的事情并使用 XYZ ......这太棒了!”
我想我要问的是有没有人知道我可以用来完成这项任务的任何东西(鉴于我是一名 Python 开发人员,我不知道 Hadoop 或 Java - 并且有一个紧迫的时间表可以防止我正在学习 Hadoop 等新技术或学习一门新语言)
谢谢阅读。我期待任何建议。
multithreading - 最快的数据存储方式
我有一个生成一些输出的服务器,如下所示:http://192.168.0.1/getJPG=[ID]
我必须通过 ID 1 到 20M。
我看到大部分延迟都在存储文件中,目前我确实将每个请求结果作为一个单独的文件存储在一个文件夹中。格式为:[ID].jpg
服务器响应很快,生成器服务器真的很快,但我无法快速处理接收到的数据。
存储数据以供以后处理的最佳方式是什么?
我可以做所有类型的存储,比如在数据库中,比如在单个文件中,然后再解析大文件等。
我可以用 .NET、PHP、C++ 等编写代码。对编程语言没有限制。请指教。
谢谢
c - 如何使用 c/c++ 语言从文件中读取 1000 列或更多列数据?
具有 10000 行和 1000 列的数据文件。我想将整行保存到数组或每列保存到变体。
C中有一个标准函数fscanf。如果使用这个函数,我需要将格式写1000次。
用 C 编程几乎不可能这样。但是,我不知道用 C 语言来实现它。有什么建议或解决方案吗?
而且,如何读取或提取某些列数据?
sql - Excel:在“命令文本”中发送多个值
位于“数据>连接>属性>定义(选项卡)>命令文本”中,我有以下内容:
目前该函数仅通过其具有的唯一参数接收一个值,据有人告诉我,它由问号 (?) 的字符表示。
我需要的是通过函数发送两 (2) 个值,因为我有一个 SQL 查询,它返回引用两个日期之间范围的数据。例如:开始日期(参数 1)和结束日期(参数 2)。
你能帮助我吗?
sql - 选择同时满足 SQL 中两个条件的项目
我有一个系统可以将字段中项目的 XYZ 位置报告给 SQL 数据库。我试图通过过滤已知的时间点来过滤误报(仅识别移动的项目),当项目通过一个点时,以及项目在通过一个点后应该在什么位置。
我的逻辑是,如果一个项目在一个位置和时间并且在另一个位置和时间,它一定已经移动了。
所以我有这个查询:
有任何想法吗?我意识到我用上述查询向 SQL 提出的要求是同时在两个地方(这不可能发生),但我想要的是同时存在于这两个空间约束中的记录 - 我想要它们同时存在的记录,而不是要求同时在两者中的记录。