问题标签 [data-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
language-agnostic - 受 CPU 限制的应用程序与受 IO 限制的应用程序
对于使用大量数据的“数字运算”风格的应用程序(读取:“数百 MB,但不是 GB”,即它可以很好地放入操作系统旁边的内存中),将所有数据读入内存是否有意义首先在开始处理之前避免在读取大型相关数据集时可能使程序 IO 绑定,而不是从 RAM 加载它们?
这个答案在使用不同的数据支持之间会改变吗?即,无论您使用的是 XML 文件、平面文件、完整的 DBMS 等,答案是否相同?
web-services - 东欧货币实时外汇数据的网络服务?
是否有针对东欧货币的实时外汇数据的网络服务?雅虎数据会延迟几分钟更新,所以我不想使用它。我见过一些 Java 小程序,但没有用,因为我无法从中提取任何数据。
作为一个特定的请求,我正在寻找罗马尼亚货币 RON 的报价。
django - 检查 Django request.POST 中的内容
我通过 request.POST 接受数据,如下所示:
它从一组名为form-0-location一直到form-5-location的文本输入框接受数据。
我要添加的是检查以确保 request.POST 包含任何这些输入字段中的数据。我认为我的问题是我不知道在 Django 中描述这个的正确术语。
我知道如何在 PHP 中做到这一点:在 $_POST 中查看至少其中一个字段不为空,但我似乎无法通过搜索谷歌找到正确的答案。
如果我在这些输入字段中找不到任何数据,我想将用户重定向回主页。
c++ - Writing data chunks while processing - is there a convergence value due to hardware constraints?
I'm processing data from a hard disk from one large file (processing is fast and not a lot of overhead) and then have to write the results back (hundreds of thousands of files).
I started writing the results straight away in files, one at a time, which was the slowest option. I figured it gets a lot faster if I build a vector of a certain amount of the files and then write them all at once, then go back to processing while the hard disk is occupied in writing all that stuff that i poured into it (that at least seems to be what happens).
My question is, can I somehow estimate a convergence value for the amount of data that I should write from the hardware constraints ? To me it seems to be a hard disk buffer thing, I have 16MB buffer on that hard disk and get these values (all for ~100000 files):
Or is this just a coincidence ?
I would also be interested in experience / rules of thumb about how writing performance is to be optimized in general, for example are larger hard disk blocks helpful, etc.
Edit:
Hardware is a pretty standard consumer drive (I'm a student, not a data center) WD 3,5 1TB/7200/16MB/USB2, HFS+ journalled, OS is MacOS 10.5. I'll soon give it a try on Ext3/Linux and internal disk rather than external).
c# - C# 中的密集文件 I/O 和数据处理
我正在编写一个需要处理大型文本文件的应用程序(以逗号分隔的几种不同类型的记录 - 我没有权力或倾向于更改数据存储格式)。它读入记录(通常是按顺序读取文件中的所有记录,但并非总是如此),然后将每条记录的数据传递给某些处理。
现在应用程序的这一部分是单线程的(读取一条记录,处理它,读取下一条记录等)我认为在一个线程中读取队列中的记录并在另一个线程中处理它们可能更有效线程在小块或它们变得可用时。
我不知道如何开始编写类似的程序,包括必要的数据结构或如何正确实现多线程。任何人都可以提供任何指示,或提供其他关于我如何提高性能的建议吗?
r - 仅将文件中的选择列读取到R中的方法?(`read.table` 和 `scan` 之间的一个愉快的媒介?)
我有一些非常大的分隔数据文件,我只想处理 R 中的某些列,而不需要花费时间和内存来data.frame
为整个文件创建一个。
我知道的唯一选项read.table
是当我只想要几列时非常浪费,或者scan
对于我想要的来说似乎太低了。
有没有更好的选择,或者使用纯 R 或者调用其他一些 shell 脚本来进行列提取,然后在它的输出上使用 scan 或 read.table?(这导致了如何调用 shell 脚本并在 R 中捕获其输出的问题?)。
javascript - 正则表达式在一行中的每 n 个字符和一个完整的单词之前插入“\r”(基本上是一个自动换行功能)
我是 JavaScript 和正则表达式的新手。我正在尝试将文本文档自动格式化为每行特定数量的字符,或者在单词前放置一个“\r”。
这在功能上类似于许多文本编辑器中的 Wordwrap。
例如。我想要每行 10 个字符
原文:我叫戴维·布鲁。
修改:我的名字 \ris Davey \rBlue。
看,如果第 10 个字符是一个单词,它会将整个单词放到一个新行中。
我认为以下应该在某种程度上起作用 /.{1,10}/ (这应该可以找到任何 10 个字符,对吗?)
不知道如何去做剩下的。
请帮忙。
java - 使用 Hibernate 加载 20K 产品,修改实体并更新到 db
我正在使用休眠更新数据库中的 20K 产品。
到目前为止,我正在提取 20K 产品,遍历它们并修改一些属性,然后更新数据库。
所以:
到目前为止,与您的标准 jdbc 相比,事情进展得很慢,我能做些什么来加快速度?
我确定我在这里做错了什么。
r - 处理 R 中丢失/不完整的数据——是否有屏蔽但不删除 NA 的功能?
正如您对针对数据分析的 DSL 所期望的那样,R 可以很好地处理丢失/不完整的数据,例如:
许多 R 函数都有一个na.rm标志,当设置为TRUE时,删除 NA:
但是如果你想在函数调用之前处理 NA ,你需要做这样的事情:
从向量中删除每个“NA”:
从向量中删除每个“NA”并将其替换为“0”:
从数据框中删除包含“NA”的整个每一行:
所有这些功能都会永久删除“NA”或其中包含“NA”的行。
有时这并不是您想要的——制作数据框的“NA”切除副本对于工作流的下一步可能是必要的,但在后续步骤中,您通常希望这些行返回(例如,计算因先前调用“完整案例”而导致缺少行但该列中没有“NA”值的列的按列统计)。
尽可能清楚我在寻找什么:python/numpy 有一个类,掩码数组,带有一个掩码方法,它可以让你在函数调用期间隐藏-- 但不能删除 -- NAs。R中是否有类似的功能?
c# - 数据聚类方法
我正在用 C# 编写一个程序,其中我在图像上显示了一组 200 个点。但是,这些点倾向于聚集在各个区域,我正在寻找一种“聚集”的方法。换句话说,可以在聚集点周围画一个圆/椭圆。
有没有人看到任何方法来做到这一点?我听说过 K-means 聚类,但我不确定如何在 C# 中实现它。
有什么最喜欢的实现吗?