问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4306 浏览

java - 使用迭代值增量进行趋势分析

我们已将 iReport 配置为生成以下图表:

真实数据点为蓝色,趋势线为绿色。问题包括:

  • 趋势线的数据点过多
  • 趋势线不遵循贝塞尔曲线(样条)

问题的根源在于增量器类。增量器被迭代地提供数据点。似乎没有办法获取数据集。计算趋势线的代码如下所示:

您将如何创建更平滑、更准确的趋势线表示?

0 投票
3 回答
3625 浏览

java - 趋势线的最佳拟合曲线

问题约束

  • 数据集的大小是已知的,而不是数据本身。
  • 数据集一次增长一个数据点。
  • 趋势线一次绘制一个数据点(使用样条/贝塞尔曲线)。

图表

下面的拼贴画显示了具有相当准确趋势线的数据集:

在此处输入图像描述

这些图表是:

  • 左上。按小时计算,有约 24 个数据点。
  • 右上方。一年内按天计算,有约 365 个数据点。
  • 左下角。按一周为一年,有约 52 个数据点。
  • 右下。按月计算一年,大约 12 个数据点。

用户输入

用户可以选择:

  • 时间序列的类型(每小时、每天、每月、每季度、每年);和
  • 时间序列的开始日期和结束日期。

例如,用户可以选择 6 月 30 天的每日报告。

趋势权重

要计算窗口大小(即计算趋势线时要平均的数据点数),使用以下表达式:

Wheredata points来自用户输入,trend weight6.4。尽管6.4的趋势权重产生了很好的拟合,但它是相当随意的,并且可能不适合不同的用户输入。

问题

trend weight给定这个问题的约束应该如何计算?

0 投票
1 回答
1072 浏览

.net - 在 SQL Server TEXT 列中查找常用短语

简短描述:

我很想知道是否可以使用 SQL 分析服务或其他一些 SQL Server 服务来为我挖掘一些数据,这些数据将显示数据集中 SQL TEXT 字段之间的共性。

长描述

我正在查看由大约 10,000 行 TEXT blob 组成的数据子集,这些数据在问题跟踪(票务)软件中用作注释列。我想使用一些开箱即用的东西(无需构建一些东西),它可能能够解析所有行并在“Notes”列中找到常用的字节序列。换句话说,我想找到常用的短语(两到三个单词短语,所以 TEXT blob 的 9 - 20 个字符部分)。这将帮助我更好地确定员工的笔记是否包含我们可以在故障排除流程中标准化的类似短语(故障排除技术)。

结束语

我真的不想构建一个应用程序来做到这一点,因为我的方法可能不是最有效的方法。

或者,如果没有人知道开箱即用的解决方案,您能否推荐任何我可以在代码中使用的算法,我可以在其中对一组值进行字符串比较?

希望这一切都有意义。如果有任何需要澄清的地方,请在评论中告诉我。

0 投票
1 回答
188 浏览

database-design - 用于了解数据分析的工程方面(OLAP、仓储、ETL 等)的资源

我是一名数学/统计人员,有兴趣更多地了解“数据分析”的工程方面(可能是一个过于宽泛的术语,但这绝对是“我不知道我不知道什么”的情况,所以我不确定如何更具体)。

一旦数据已经存储在某个地方并且我可以访问它,我就可以操作和分析数据,并且我可以编写脚本和 SQL 查询(并且对规范化等事情有一般的了解)。我不知道的是捕获和存储数据的整个工程过程。例如,我听说过的术语我只是模糊理解的含义包括:

  • OLAP、OLTP
  • 数据仓库
  • ETL
  • ???

什么是一本好书(或任何其他资源)来了解这些事情?关于数据库设计我应该知道哪些事情(规范化对我来说似乎有点“显而易见”,我什至在我知道这个术语之前就会做一些事情——还有其他事情吗?)?

换句话说,对于属于“分析工程师”这一概括性术语的工作,我应该了解哪些内容以及了解它们的好方法是什么?

0 投票
1 回答
2615 浏览

python - 加速度计数据分析

我想知道是否有一些库/算法/技术(python,如果可能的话)有助于从加速度计数据(从安卓手机中提取,顺便说一句)中提取特征,比如运动的周期性、加速度的能量和喜欢。以前有人做过这种任务吗?

非常感谢你:)

0 投票
3 回答
4938 浏览

postgresql - PostgreSQL 中使用 R 的非线性回归模型

背景

我有 1900 年到 2009 年间加拿大全境的气候数据(温度、降水量、积雪深度)。我编写了一个基本网站,最简单的页面允许用户选择类别和城市。然后他们得到一个非常简单的报告(没有参数和计算部分):

Web 应用程序的主要目的是提供一个简单的用户界面,以便公众能够以有意义的方式探索数据。(数字列表对公众没有意义,提供太多输入的网站也没有意义。)该应用程序的次要目的是为气候学家和其他科学家提供更深入的方式来查看数据。(当然,使用了太多的输入。)

工具集

该数据库是安装了 R(大部分)的 PostgreSQL。报告使用 iReport 编写并使用 JasperReports 生成。

模型选择不佳

目前,线性回归模型应用于每日数据的年平均值。线性回归模型在 PostgreSQL 函数中计算如下:

使用以下命令将结果返回到 JasperReports:

JasperReports 使用以下参数化分析函数调用 PostgreSQL:

这不是一个最佳解决方案,因为它给人一种错误的印象,即气候正在以缓慢但稳定的速度变化。

问题

使用带有两个参数的函数(例如,年份 [X] 和金额 [Y]),例如 PostgreSQL 的regr_slope

  • 什么是更好的回归模型?
  • 哪些 CPAN-R 包提供了这样的模型?(可安装,理想情况下,使用apt-get.)
  • 如何在 PostgreSQL 函数中调用 R 函数?

如果不存在这样的功能:

  • 对于将产生所需拟合的函数,我应该尝试获取哪些参数?
  • 你会如何建议显示最佳拟合曲线?

请记住,这是一个供公众使用的网络应用程序。如果分析数据的唯一方法是使用 R shell,那么目的就落空了。(我知道到目前为止我看过的大多数 R 函数都不是这种情况。)

谢谢!

0 投票
1 回答
357 浏览

statistics - SPSS中成对的受访者(夫妻)的链接信息

我正在准备在 SPSS 中分析伴侣选择的决定因素,但基本上我无法起步,因为我不知道如何根据每个受访者配偶的信息(即教育、工资、社会背景、种族等)。

每个受访者当前由 ID# 标识,并在矩阵中存在两个位置:作为单位/受访者和作为配偶(妻子或丈夫),在不同的列中实例化。我需要的是使用与作为受访者的个人相关的每一行变量的信息 - 在每个人的配偶的行中创建新变量。

如果有帮助,我还有一个单独的文件,其中所有夫妇按行链接,作为同一单元的变量 - 显然与我的“变量文件”中的 ID# 相同(然而,昨天,我合并了这些文件 - 希望正确...)。

0 投票
2 回答
776 浏览

sql - 从表中查找每周摘要

我在这里写一个 SQL 语句,用于从表中查找每周摘要。我有一个包含以下字段的表:

现在我想收集一个员工一周工作了多少小时的信息。

0 投票
2 回答
540 浏览

statistics - 寻找估计方法(数据分析)

由于我不知道我现在在做什么,我的措辞可能听起来很有趣。但说真的,我需要学习。

我面临的问题是提出一种方法(模型)来估计软件程序的工作方式:即运行时间和最大内存使用量。我已经拥有的是大量数据。该数据集概述了程序在不同条件下的工作方式,例如

我有成千上万行这样的数据。现在,如果我提前知道所有标准,我需要知道如何估计(预测)运行时间和最大内存使用量。我需要的是一个给出提示(上限或范围)的近似值。

我感觉这是典型的???我不知道的问题。你们能给我一些提示或给我一些想法(理论、解释、网页)或任何可能有帮助的东西。谢谢!

0 投票
2 回答
362 浏览

c# - 在不使用分析服务的情况下将一组具有离散和连续数据值的数据分成两组?

假设我有一个具有以下方案的表(注意:此示例是假设的,尽管实际用例相似)。

手动查看数据我知道 LikesToParty 与其他值的某些特定配置之间存在很强的相关性。例如,中间名为 Wells、年龄在 15 到 30 岁之间、来自洛杉矶地区的男性几乎可以肯定在 LikeToParty 中是这样的。我想为未回答调查的用户预测 LikesToParty 的价值。

如何使用 C# 挖掘这些数据,而无需购买分析服务等昂贵的软件包?c# 有免费的库吗?

我已经制作了一个神经网络,它能够完成我在上面的示例中描述的大部分内容,但是训练起来非常慢,我不确定这是否是正确的方法。也许有更好、更有效的数据分割方式?