问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1042 浏览

python - 从数据点不按时匹配的时间序列图中求和/堆叠值的算法

我有一个图形/分析问题,我无法完全理解。我可以做一个蛮力,但它太慢了,也许有人有更好的主意,或者知道或快速的python库?

我有 2 个以上的时间序列数据集 (x,y) 我想聚合(并随后绘制)。问题是整个系列的 x 值不匹配,我真的不想诉诸将值复制到时间箱中。

因此,鉴于这两个系列:

当加在一起时,应导致:

逻辑:

我目前的想法是迭代键(x)的排序列表,保留每个系列的前一个值,并查询每个集合是否有新的 x y。

任何想法,将不胜感激!

0 投票
3 回答
6952 浏览

python - 加速 Matplotlib?

我在这里读到matplotlib 擅长处理大型数据集。我正在编写一个数据处理应用程序,并将 matplotlib 绘图嵌入到 wx 中,并且发现 matplotlib 在处理大量数据方面非常糟糕,无论是在速度方面还是在内存方面。除了对输入进行下采样之外,有谁知道加快(减少内存占用)matplotlib 的方法?

为了说明 matplotlib 对内存的影响,请考虑以下代码:

0 投票
1 回答
1610 浏览

data-analysis - 如何从我网站上用户的评论中分析信息?

任何人都可以建议一种方法来处理信息并分析用户在我网站上的文章上发表的评论中的数据。

我完全想按如下方式处理评论:

示例:喜欢上一篇关于计算机化的文章可能会得到以下评论:

  1. 我喜欢计算机化,因为它使工作更容易。
  2. 计算机化正在传播失业,因为一台计算机可以比 4 个人工作得更好。

我如何处理这些信息 -
:我接受评论并尝试识别其中的一些预定义[和可扩展]关键字。

0 投票
1 回答
1754 浏览

r - 如何在 R 中添加新列和聚合值

我对 gnuplot 完全陌生,我只是在尝试这个,因为我需要学习它。我在三列中有一个值,其中第一列代表文件名(日期和时间,一小时间隔),其余两列代表两个不同的实体 Prop1 和 Prop2。

我需要按一天中的小时(**_0100)聚合数据,这是最后四个数字。所以,我想创建另一个名为 hour 的列,它告诉我一天中的小时。意思是0000 = 0h, 0100 = 1h, ...... 2200 = 22h等等。

然后我想得到每小时 Prop1 和 Prop2 的总和,所以最后得到类似的东西。

并得到 Prop1 和 Prop2 的线图。

0 投票
1 回答
1743 浏览

r - 使用 R 获得波动性和峰值平均。互联网流量数据比例

我在以下 R 数据集中有十天期间每小时的网络流量数据,如下所示。

正如所见,在一个小时内也有类别的重复。我需要计算这些不同应用程序类别的波动性和高峰小时与平均小时的比率。

波动率:每小时交易量的标准差除以每小时平均值。

平均高峰时间。小时比率:最大小时的音量与音量的比率。该应用程序的平均小时数。

那么如何聚合和计算每个类别的这两个统计数据呢?我是 R 新手,对如何汇总和获取上述平均值知之甚少。

因此,最终结果看起来像这样,首先每个类别的交易量在一个 24 小时内通过对交易量求和然后计算两个统计数据来聚合

编辑: plyr 让我做到了这一点。

但这不是我所希望的。我想要每个类别的统计数据,其中一天中的所有时间首先通过对交易量求和然后计算波动率和 PA 比率来聚合为 24 小时。有什么改进的建议吗?

0 投票
2 回答
1786 浏览

algorithm - 处理和理解句子

我正在尝试编写一个简单的代码,可以处理句子中的单词以形成含义。很长一段时间以来,我一直在尝试开发一个好的算法,但是我尝试这样做,该算法非常容易变得过于复杂和冗长。如果您有一些建议,我将不胜感激。谢谢

0 投票
0 回答
167 浏览

mysql - 查找数据集中的整个波动

我有一个 MySQL 数据库中一组坦克的历史数据表。我想找出大于 200 加仑/小时的罐容量波动。到目前为止,我的 SQL 语句是:

在上面的代码中,curtime是插入记录时的时间戳,tankhistid是表整数主键,tankid是个体罐id,vol是体积读数。

这会返回太多结果,因为每 5 分钟收集一次数据,并且波动可能需要数小时(多行具有相同的 id,然后是开始列),或者仅超过 10 分钟(多行具有相同的开始或结束 id)。示例输出:

请注意,所有这些行都应该只有一个:7514576,7515724。对于坦克一天的数据,查询需要 4 分钟,因此任何加速都会很棒。我猜有一种方法可以获取当前查询并将其用作子查询,但我不确定如何进行过滤。

0 投票
1 回答
68 浏览

histogram - 变异性分析算法

我使用很多直方图。特别是,这些直方图是沿着人类基因组片段的碱基调用。

x 轴上的每个点都是组成 DNA 的四个含氮碱基(A、C、T、G)之一,y 轴表示碱基能够被“调用”(或被测序仪识别)的次数机器,以便对基因组进行测序,这只是确定基因组中每个碱基的身份)。

这些直方图中的许多显示大致线性下降(当机器无法获得足够的读取深度时),从类似高原的区域下降到 0 或(几乎为 0)。当分数降至零时,意味着测序仪无法确定碱基的身份。如果您以前见过双螺旋,这意味着测序仪无法确定螺旋的一半梯级的标识。基因组的某些区域比其他区域更难表征。具有大量碱基调用的碱基(或 x 个数据点),数量级 >=100,能够被明确识别。例如,如果一个碱基总共有 250 个调用,我们有 248 个 T 调用,1 个 G 调用和 1 个 A 调用,我们将其称为 T。具有 0 个碱基调用的区域是值得关注的,因为那时我们' 我们必须从邻近区域推断低读取区域的身份可能是什么。是否有一种简单的算法可以为这些图分配反映这种趋势的分数?有关示例 histo,请参见 box.net/shared/nbygq2x03u。

0 投票
1 回答
137 浏览

serial-port - 在原始数据流中定位数据(如压力等)

我是串行端口分析的新手,我将不胜感激。我的具体问题是......

如果我有来自串行端口分析程序的原始数据,我将如何定位温度、压力、能量等测量值?我应该在原始数据中寻找什么来帮助我识别这些计量单位?从这些原始数据中提取相关数据的最佳方式是什么?

如果您能在这方面为我提供任何帮助,我将不胜感激。我无法弄清楚如何做到这一点。

非常感谢。

0 投票
2 回答
8042 浏览

mysql - 如何在 MySQL 中滞后列?

考虑下表:

id列是自动递增的,但包含间隙。该value列是数字。

我想通过与上面两行相关的设置来查看value随时间的增加。那是我想设置行(546)相对于行(334)的行。因此,要为行计算的值是 546/334=1.63473。valuevalueid=85valueid=85valueid=27id=85

这是我想要达到的结果:

如何在 MySQL 中执行这种滞后?

请注意,该id列包含间隙,因此仅在同一个表上加入是t1.id = t2.id - 2行不通的。