问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1383 浏览

excel - 用于软件测试的最佳交互式分析和绘图工具是什么?

我的实时应用程序生成一个数据日志:100 个字的数据@10Khz。我需要对其进行分析并生成一些结果图。涉及中间计算 - 我需要采取一些差异,平均值等。Excel可以正常工作,除了:

  • 图形数据系列的 32000 项限制太小 - 只有 3 秒的数据。
  • 它处理包含大型数据系列的图形的变化的冰川速度令人难以忍受。

处理和绘制大量数据的 Excel 有哪些好的替代品?我正在寻找互动的东西,而不是图书馆。

0 投票
14 回答
3390 浏览

python - 什么是面向对象编程的计算开销成本?

我有一大组数据(一个 250,000 X 1,000 双倍的数据立方体,大约 4 gig 文件),我想使用我以前用 Python 编写的一组 OOP 类来操作它。目前,数据集已经非常大,要读入我的机器内存,我至少必须将其分成两半,因此计算开销是一个问题。我的 OOP 类创建新对象(在这种情况下,我需要 250,000 个新对象,每个对象是一个包含 1,000 个双精度数的数组)来处理数据。为通用 OOP 语言创建对象所需的内存和计算开销是多少?在蟒蛇?在 C++ 中呢?

是的,我意识到我可以创建一个新的数组类。但是 1)我已经完成了这些类,并且 2)我将创建的每个对象放回数组中,以便以后访问。这个问题是教学问题

*更新:我想在时间、我的时间和计算机上保持高效。我不想重写我已经拥有的程序,如果我不需要的话,花时间优化代码会浪费我的时间,如果我浪费计算机时间,我也不在乎。我实际上确实有一台带有 4Gig ram 的 64 位机器。数据是一个图像,我需要对每个像素做几个过滤器。*

0 投票
3 回答
374 浏览

unit-testing - 单元测试...应该在这里使用吗?

重复https ://stackoverflow.com/questions/135651/learning-unit-testing


我正在尝试为我的研究小组开发一些软件来分析和绘制实验数据。我想让它完全没有错误。这会是单元测试的情况吗?如果是这样,您能否为我指出一些很好的单元测试参考资料?

0 投票
3 回答
1851 浏览

python - Python、ROOT 和 MINIT 集成?

我是高能粒子物理系的一名谦虚的研究生。由于对 C/C++ 毫无根据的厌恶和对 python 的热爱,到目前为止,我已经求助于 python 进行数据分析(只是简单的东西),并且即将尝试支持针对 ROOT 库的 python 脚本,特别是使用 MINUIT 进行一些参数最小化。

除了询问是否有人对这些安装和使用有任何提示之外,我想知道是否值得尝试一下,或者只是进入使用 C/C++ 的“规范”,或者像 pyminuit 这样的东西是否可用. 或者你认为我可以将整个 C/C++ 脚本包装成 python 代码,以利用我现有的自写分析方法(我还没有包装经验)。抱歉含糊不清;我正走向一个远远超过我目前经历的未知数。

0 投票
6 回答
167 浏览

math - 检测和修复溢出

我们有一个粒子探测器硬连线使用 16 位和 8 位缓冲区。时不时地,有某些[预测的]粒子通量峰值穿过它;没关系。不好的是,这些通量通常达到超过缓冲区存储它们的容量的数量级。因此,会发生溢出。在图表上,它们看起来像通量突然下降并再次开始增长。您能否提出一种 [大部分] 准确的方法来检测遭受溢出的数据点?

PS 探测器在物理上是不可访问的,因此通过更换缓冲区以“正确的方式”修复它似乎不是一种选择。

更新:根据要求进行一些澄清。我们在数据处理设施中使用 python;检测器本身使用的技术非常晦涩(将其视为由完全不相关的第三方开发),但它绝对不复杂,即没有运行“真正的”操作系统,只是一些低级的东西来记录检测器读数并响应远程命令,如电源循环。内存损坏和其他问题现在不是问题。发生溢出仅仅是因为探测器的设计者使用 16 位缓冲区来计算粒子通量,有时通量超过每秒 65535 个粒子。

更新 2:正如几位读者所指出的,预期的解决方案将与分析通量剖面以检测急剧下降(例如下降一个数量级)以试图将它们与正常波动区分开来有关。另一个问题出现了:是否可以通过简单地针对恢复的(通过x轴)通量分布运行校正程序来检测恢复(原始通量下降到溢出水平以下的点)?

0 投票
1 回答
825 浏览

python - 概率时间序列,观察到的数据概率(似曾相识)

好的,伙计们...感谢您查看这个问题。我记得在大学里做了以下事情,但是我忘记了确切的解决方案。任何接受者都要朝着正确的方向前进。

我有一个 N 的时间序列数据(我们将使用三个)。数据序列按时间顺序是连续的(例如 obsOne[1] 与 obsTwo[1] 和 obsThree[1] 一起发生)

obsOne[47, 136, -108, -15, 22, ...], obsTwo[448, 321, 122, -207, 269, ...], obsThree[381, 283, 429, -393, 242, ...]

第 2 步。从数据系列中,我为每个数据系列创建了一系列宽度为 Z 的 X 范围箱。(例如观察 obsOne:bin1 = [<-108, -108] bin2 = [-108, -26] bin3 = [-26, 55] ... binX = [136, > 136]

步骤 3。现在创建一个包含数据系列所有可能组合的表。因此,如果我有 4 个 bin 和 3 个数据系列,所有组合将总计 4x4x4 = 64 个可能的结果。(例如 row1 = obsOne bin1 + obsTwo bin1 + obsThree bin1, row2 = obsOne bin1 + obsTwo bin1 + obsThree bin2, ... row5 = obsOne bin1 + obsTwo bin1 + obsThree binX, row6 = obsOne bin1 + obsTwo bin2 + obsThree bin1, row7 = obsOne bin1 + obsTwo bin1 + obsThree bin2, row9 = obsOne bin1 + obsTwo bin2 + obsThree binX, ...)

第 4 步。我现在回到数据系列,找出数据系列中的每一行在表格中的位置,并计算观察次数。(例如 obsOne[2] obsTwo[2] obsThree[2] = 表上的第 30 行,obsOne[X] obsTwo[X] obsThree[X] = 表上的第 52 行。

第 5 步。然后我只取表中具有正匹配的行,计算有多少观察落在该行上,除以数据系列中的观察总数,这给了我在观察数据上该范围的概率。

我为这个基本问题道歉,而不是数学专家。很多年前我已经这样做了。我忘记了我用的是哪种方法,它比这种漫长的(古老的“手工”)方法要快得多。当时我没有使用 python,它是 c++ 中的其他一些专有包。我想看看是否有什么东西可以用python(现在是python商店)解决这个问题,总是可以扩展,所以它是软约束。

0 投票
1 回答
158 浏览

semantics - 有哪些信息分析技术可用于用户生成数据的定性分析?

我们有一些算法用于对数据进行排序,找到最大值和最小值,找到节点之间的最短路径等。

我已经开始研究用户生成数据的定性分析,并且遇到了潜在语义分析。还有哪些其他技术可用于分析文本数据……以及可能的其他媒体?

0 投票
4 回答
880 浏览

sql-server - 如何从 SQL Server 数据中实现实时 *财务 * 统计引擎以进行仪表板显示?

我们目前使用 excel 自动化来计算时间序列统计数据并将结果存储在我们的 SQL Server 2008 数据库中,以便于显示/排序/等。之后。

我目前正在重新设计我们应用程序的主屏幕,以仪表板形式呈现最重要的信息(由使用该应用程序的团队确定)。我希望显示是实时的。数据不会经常添加,但确实需要一些严肃的数据处理。

一旦设计了用户体验,我该去哪里实施?
服务器端,客户端?F# 对于这种类型的数据处理来说似乎是一种很棒的语言,我愿意聘请一名开发人员,但在走这条路之前,我们必须考虑一下我们可以使用其他工具。

感谢您的建议。

0 投票
2 回答
1003 浏览

excel - MS excel等数据分析工具

我有大量的数据需要比较,我们用的是微软的EXCEL,成本高,速度慢,而且生成的图也不达标。现在,是他们的任何其他工具,它是免费的,并且具有良好的图形功能。

谢谢你。

0 投票
4 回答
9902 浏览

python - 你如何使用 numpy/scipy 处理丢失的数据?

我在数据清理中处理得最多的事情之一就是缺失值。R 使用其“NA”缺失数据标签很好地处理了这个问题。在 python 中,似乎我将不得不处理屏蔽数组,这似乎是一个主要的痛苦设置并且似乎没有很好的文档记录。关于在 Python 中简化此过程的任何建议?这正在成为转移到 Python 进行数据分析的交易破坏者。谢谢

更新很明显,自从我查看 numpy.ma 模块中的方法以来已经有一段时间了。似乎至少基本的分析函数可用于掩码数组,并且提供的示例帮助我理解了如何创建掩码数组(感谢作者)。我想看看Python中一些较新的统计方法(在今年的GSoC中正在开发)是否包含这方面的内容,并且至少做了完整的案例分析。