问题标签 [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database-design - 关于客户画像系统的建议:书籍、文章等
我将使用 C# 为我们自己的电子商务网站开展客户分析项目(与 Google Analytics 类似但不同)。我对这种项目很陌生,客户分析项目也是一个全新的项目。你能给我一些建议吗?
我觉得应该有两个部分,第一个是“跟踪网站访问数据”,第二个是“分析跟踪数据”。
你能给我一些建议吗?谢谢:
- 什么样的设计模式最适合这种项目?(管道和过滤器?还是其他?)我正在使用 C#。
- 什么样的数据库最合适?RDBMS 还是文档数据库?
- 如何为存储跟踪数据的数据库表建模?
- 我可以使用哪些关键字在 Google 上搜索此主题?
- 你能给我推荐一些文章或书籍来阅读吗?(文章比较好,因为没那么多时间看书)
- 你认为我需要学习的任何其他东西。
提前致谢!
database - 是否有帮助信息可视化的免费数据分析器?
我准备了一份评估软件的问卷并提交给 n 个人。问卷有很多问题,都只有一个选择,如下所示:
- 你几岁?(13-15) (19-25) (26-35) (35 岁以上)
- 你有什么资格?(大学生) (毕业) (博士)
.... 在以下方面表达从 1 到 4 的评价:a1 a2 ...我在 Excel 和 Mysql 数据库中复制了所有答案,现在我需要找到例如之间的相关性。年龄和评价的每个方面的评级。是否有针对 Linux 执行此操作的免费工具,可以帮助我可视化相关性?例如。大多数 13 到 18 岁的人认为方面 1 很差,19-25 很差,26-35 很好...
我知道多种类型的双变量、三变量数据(例如散点图)的可视化,但我不知道如何获得它们。
请原谅我最糟糕的英语,我希望你能理解我的问题......提前谢谢!
apache - 如何从 Apache 日志中获取 uv(Unique Visitor) 的数量
我想知道如何从 apache 日志中获取 uv 数的分析算法。像这样的日志:
谢谢。
或者谁知道 awstats 或 webtrends 如何获得唯一访问者。
我知道,在 awstats( http://awstats.sourceforge.net/docs/awstats_glossary.html ) 中,唯一访问者是通过 IP 地址跟踪的,所以如果多个用户从同一个 IP 访问您的网站(例如家庭或office network),他们将被计为一个唯一身份访问者。要了解更多信息,请点击此处http://digdeeply.info/archives/03191870.html
statistics - 如何检测不良视频流
我正在尝试对我的流媒体视频网站进行一些数据分析。为了帮助确定问题是在我这边还是在用户那边,我已经开始收集流的带宽的平均值和标准差。我不确定的是如何确定正常流应该是什么样子。
为了弄清楚正常的流应该是什么样子,我想找到以下内容:
- 均值 - 什么是正常带宽
- StdDev of Means - 人口的带宽变化多少
- StdDevs 的平均值 - 正常的变化量是多少
- StdDevs 的 StdDev - 平均 StdDev 变化多少
这些统计数据有意义吗?
基本上,我试图通过寻找低带宽或高度可变带宽之类的东西来检测不良流。所以,我想我可以找到一些基线,然后寻找异常值。
此外,保留每个样本的所有数据是不可行的,因此我只能使用汇总统计数据。如果您还有其他建议,我会记录这将是一个很大的帮助。
mysql - MySQL 如何在一组中选择两个日志条目之间的时间差?
我有大量的日志条目需要对其进行分析。我想要做的是为每组日志选择开始和完整条目之间的时间差。我该怎么做呢?
matlab - MatLab中数据集的最大和最小点
嗨,我正在尝试找到一种在 MatLab 中创建矩阵的方法,该矩阵仅在 30 秒内重复一个练习的最大值和最小值。
例如,如果我有数据集:
我想要的结果是:
该函数只会绘制不断变化的波形的峰值。
我试过的代码如下:
感谢提前回复的人,
杰瑞德。
matlab - 下标索引必须是实数正整数或逻辑数。在 MatLab 中使用 findpeaks
我一直在 MatLab 中使用 findpeaks 来定位波形的最大值和最小值,没有问题,但在过去 20 分钟左右出现错误:
???下标索引必须是实数正整数或逻辑数。
出现了一个我不知道为什么。即使用测试数据尝试简单的练习也会导致同样的错误。例如,如果我有数据集:
并使用了代码:
我希望结果:
但由于某种原因,情况不再如此。
请指教。
r - 在 R 中,如何在运行具有大量变量的多重回归后仅提取重要变量
在 R 中运行多元回归后,回归摘要用星号指示显着变量。在我正在处理的数据集中,有近 2000 个变量,R 识别的重要变量包括 50 多个变量。有什么方法可以从回归摘要中单独获取重要变量的列表。
r - 链接两个表并查找关联表
我在 r-studio 工作,试图链接两个已经加载的表,然后查找关联规则。
设置:
我有两个数据表:
- "uData" 字段 [user.id, rating, timestamp]
- "uUser" 字段 [user.id, age, gender, 职业]
在 uData 中,每个用户可以出现多次,而在 uUser 中,每个用户只列出一次。我已经使用 r-studios 导入数据集加载了数据。我使用 arules、datasets、graphics、grDecies、lattice、Matrix、methods、stats 和 utils 包。
最终目标:
找出评分、年龄和性别之间的关联规则
第一季度
我相信我需要遍历我的 uData 表并从 uUser 中提取每一行的年龄和性别。我不确定如何制作新表,或者是否需要新表来实现我的最终目标。
第二季度
最终目标是尝试找到关联规则。我一直在尝试使用
规则 <- apriori( _ _ , 参数 = 列表(supp = .5, conf = .9, target = " _ "))
在查看了一些教程后,我让它适用于虚拟数据,但不适用于我加载的数据。我不确定如何将每一行标记为事务。我努力了
交易 = 读取交易(uUser)
但这遭到了警告。任何帮助表示赞赏。
以下是来自 uData 的几行数据:
这是来自 uUser 的几行数据: