问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
533 浏览

database-design - 关于客户画像系统的建议:书籍、文章等

我将使用 C# 为我们自己的电子商务网站开展客户分析项目(与 Google Analytics 类似但不同)。我对这种项目很陌生,客户分析项目也是一个全新的项目。你能给我一些建议吗?

我觉得应该有两个部分,第一个是“跟踪网站访问数据”,第二个是“分析跟踪数据”。

你能给我一些建议吗?谢谢:

  • 什么样的设计模式最适合这种项目?(管道和过滤器?还是其他?)我正在使用 C#。
  • 什么样的数据库最合适?RDBMS 还是文档数据库?
  • 如何为存储跟踪数据的数据库表建模?
  • 我可以使用哪些关键字在 Google 上搜索此主题?
  • 你能给我推荐一些文章或书籍来阅读吗?(文章比较好,因为没那么多时间看书)
  • 你认为我需要学习的任何其他东西。

提前致谢!

0 投票
2 回答
128 浏览

database - 是否有帮助信息可视化的免费数据分析器?

我准备了一份评估软件的问卷并提交给 n 个人。问卷有很多问题,都只有一个选择,如下所示:

  1. 你几岁?(13-15) (19-25) (26-35) (35 岁以上)
  2. 你有什么资格?(大学生) (毕业) (博士)

.... 在以下方面表达从 1 到 4 的评价:a1 a2 ...我在 Excel 和 Mysql 数据库中复制了所有答案,现在我需要找到例如之间的相关性。年龄和评价的每个方面的评级。是否有针对 Linux 执行此操作的免费工具,可以帮助我可视化相关性?例如。大多数 13 到 18 岁的人认为方面 1 很差,19-25 很差,26-35 很好...

我知道多种类型的双变量、三变量数据(例如散点图)的可视化,但我不知道如何获得它们。

请原谅我最糟糕的英语,我希望你能理解我的问题......提前谢谢!

0 投票
1 回答
524 浏览

macos - 有没有基于可可的数据可视化库?

伙计们!

是否有任何具有d3.js等功能的基于可可的数据分析/可视化库?

谢谢!

0 投票
0 回答
1252 浏览

apache - 如何从 Apache 日志中获取 uv(Unique Visitor) 的数量

我想知道如何从 apache 日志中获取 uv 数的分析算法。像这样的日志:

谢谢。

或者谁知道 awstats 或 webtrends 如何获得唯一访问者。


我知道,在 awstats( http://awstats.sourceforge.net/docs/awstats_glossary.html ) 中,唯一访问者是通过 IP 地址跟踪的,所以如果多个用户从同一个 IP 访问您的网站(例如家庭或office network),他们将被计为一个唯一身份访问者。要了解更多信息,请点击此处http://digdeeply.info/archives/03191870.html

0 投票
1 回答
82 浏览

statistics - 如何检测不良视频流

我正在尝试对我的流媒体视频网站进行一些数据分析。为了帮助确定问题是在我这边还是在用户那边,我已经开始收集流的带宽的平均值和标准差。我不确定的是如何确定正常流应该是什么样子。

为了弄清楚正常的流应该是什么样子,我想找到以下内容:

  1. 均值 - 什么是正常带宽
  2. StdDev of Means - 人口的带宽变化多少
  3. StdDevs 的平均值 - 正常的变化量是多少
  4. StdDevs 的 StdDev - 平均 StdDev 变化多少

这些统计数据有意义吗?

基本上,我试图通过寻找低带宽或高度可变带宽之类的东西来检测不良流。所以,我想我可以找到一些基线,然后寻找异常值。

此外,保留每个样本的所有数据是不可行的,因此我只能使用汇总统计数据。如果您还有其他建议,我会记录这将是一个很大的帮助。

0 投票
2 回答
280 浏览

mysql - MySQL 如何在一组中选择两个日志条目之间的时间差?

我有大量的日志条目需要对其进行分析。我想要做的是为每组日志选择开始和完整条目之间的时间差。我该怎么做呢?

0 投票
2 回答
5352 浏览

matlab - MatLab中数据集的最大和最小点

嗨,我正在尝试找到一种在 MatLab 中创建矩阵的方法,该矩阵仅在 30 秒内重复一个练习的最大值和最小值。

例如,如果我有数据集:

我想要的结果是:

该函数只会绘制不断变化的波形的峰值。

我试过的代码如下:

感谢提前回复的人,

杰瑞德。

0 投票
1 回答
563 浏览

matlab - 下标索引必须是实数正整数或逻辑数。在 MatLab 中使用 findpeaks

我一直在 MatLab 中使用 findpeaks 来定位波形的最大值和最小值,没有问题,但在过去 20 分钟左右出现错误:

???下标索引必须是实数正整数或逻辑数。

出现了一个我不知道为什么。即使用测试数据尝试简单的练习也会导致同样的错误。例如,如果我有数据集:

并使用了代码:

我希望结果:

但由于某种原因,情况不再如此。

请指教。

0 投票
1 回答
2769 浏览

r - 在 R 中,如何在运行具有大量变量的多重回归后仅提取重要变量

在 R 中运行多元回归后,回归摘要用星号指示显着变量。在我正在处理的数据集中,有近 2000 个变量,R 识别的重要变量包括 50 多个变量。有什么方法可以从回归摘要中单独获取重要变量的列表。

0 投票
1 回答
1161 浏览

r - 链接两个表并查找关联表

我在 r-studio 工作,试图链接两个已经加载的表,然后查找关联规则。

设置:

我有两个数据表:

  • "uData" 字段 [user.id, rating, timestamp]
  • "uUser" 字段 [user.id, age, gender, 职业]

在 uData 中,每个用户可以出现多次,而在 uUser 中,每个用户只列出一次。我已经使用 r-studios 导入数据集加载了数据。我使用 arules、datasets、graphics、grDecies、lattice、Matrix、methods、stats 和 utils 包。

最终目标:

找出评分、年龄和性别之间的关联规则

第一季度

我相信我需要遍历我的 uData 表并从 uUser 中提取每一行的年龄和性别。我不确定如何制作新表,或者是否需要新表来实现我的最终目标。

第二季度

最终目标是尝试找到关联规则。我一直在尝试使用

规则 <- apriori( _ _ , 参数 = 列表(supp = .5, conf = .9, target = " _ "))

在查看了一些教程后,我让它适用于虚拟数据,但不适用于我加载的数据。我不确定如何将每一行标记为事务。我努力了

交易 = 读取交易(uUser)

但这遭到了警告。任何帮助表示赞赏。


以下是来自 uData 的几行数据:

这是来自 uUser 的几行数据: