问题标签 [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-analysis - Excel等大数据数据分析服务
是否有任何 Web 服务可以分析大数据集和绘制 Excel 中的图形?我需要一些简单、高效且带有 Web GUI 的东西。
bash - Bash:符号链接关注
我有一个文件树,其中包含我生成的一堆数据。我已经决定在数据生成的几个阶段,我想在使用的程序中尝试一些不同的配置选项。
我的解决方案是复制数据树,并将符号链接到所有原始数据(乘以我正在运行的新测试的数量)。然后我会让程序根据需要破坏符号链接。结果将是未受我的新配置影响的数据的原始树的符号链接,以及任何新配置的真实数据。
问题是-clobber
我使用的大多数程序的选项都遵循符号链接,所以它实际上破坏了我的原始数据。有什么我可以尝试的(可能是 bash 环境设置之类的?)可能会使所有这些程序破坏实际的符号链接,而不是它指向的数据?
data-visualization - 数据可视化算法书籍
我正在寻找一本关于数据可视化的好书,并希望在这里得到您的建议。我的背景是数学,我目前正在为我的雇主开发数据分析工具。目前让我感兴趣的两本书是
Tufte 定量信息的可视化展示
交互式数据可视化:Ward 的基础、技术和应用
我对分析数据的算法和有效方法更感兴趣。我想要一本书,可以解释如何制作与本网站上的图表相似的图表。
php - 同义词查找算法
我认为示例将比 loooong 描述更好:)
假设我们有一个数组数组:
每行都包含作为同义词的字符串。作为处理这个数组的结果,我想得到这个:
所以我想我需要一种递归算法。编程语言实际上并不重要——一般来说,我只需要一点点帮助。我将使用 php 或 python。
谢谢!
matlab - Matlab互相关与相关系数问题
我正在用 C++ 编写一个程序,但使用 matlab 中涉及互相关的数据。我知道当我对两组数据进行相关时,它会给我一个相关系数编号,表明它们是否相关。但我想在数据系列上使用互相关。当我在 Matlab 上运行互相关时,它给了我很多数据,当绘制时,绘图看起来像一个三角形......我知道相关性应该在 +/- 1 之间,但朝向三角形尖端的数据没有t 同时上升等。我是否对互相关给我的东西感到困惑,或者互相关给我的数据实际上是每个点 s(t),p(t) 的相关系数?感谢您对澄清的任何帮助。
编辑 1(在 Phonon 的响应之后)
我的主要问题是:当我交叉关联 2 个数据系列时获得的数据是否是每个点的相关系数。例如,(0,10)和(0,8);我在 x=0 处获得这两个图的相关系数的数据是什么?
math - 关于互相关和相关系数的问题
可能重复:
Matlab 互相关与相关系数问题
当我在 MATLAB 中交叉关联 2 个数据集a
和b
(每个 73 个点长)并绘制它时,它看起来像一个有 145 个点的三角形。当我绘制范围为 +/- 1 的互相关输出时,我对相关系数和类三角形图感到困惑。
compiler-construction - F# 编译器文档和 F# 数据流分析库
我有两个问题:
我想知道是否有人知道 F# 编译器文档或相关资源(编译器源代码本身除外,我目前正在寻找它) - 有关 AST 结构的信息以及用于解析和遍历的附加函数(如果有)树会有所帮助。
我还需要用于数据流分析的 F# 库,如果你们有任何想法是否存在,请告诉我。
谢谢 :)
c++ - 什么时候应该使用 C++ 而不是 SQL?
我是一名 C++ 程序员,偶尔使用 MySQL 来处理数据库,但我的 SQL 知识相当有限。但是,我肯定愿意改变这一点。
目前,我正在尝试仅使用 SQL 查询对数据库中的数据进行分析(!)。但我即将放弃,转而将数据导入 C++ 并使用 C++ 代码进行分析。
我和我的同事讨论过这个问题,他们也推动我使用 C++,说 SQL 不是用于复杂分析,而是主要用于导入(从现有表)和导出(到新表)数据,还有一点例如将数据合并到 - 例如 - 连接表。
有人可以帮我画一条线吗?所以我知道什么时候切换到 C++?当然性能也是一个问题。
SQL 中的事情变得复杂的迹象是什么?或者,也许我只是在设计查询时采用了错误的方法。那么我在哪里可以找到教程、书籍……以采取更好的方法?
我希望这不是太模糊。我真的有点失落。
google-analytics - Web Metrics 应用程序计算访问者在网站上的时间的最佳方式是什么?
我正在开发一个像谷歌分析这样的内部网络分析系统,我对 的概念不是很清楚page stay time
,网络上这个措施的典型解释是:
- 用户在时间戳访问页面 A:t1
- 用户在时间戳: t2, (t2 > t1) 访问页面 B
那么 A 的页面停留时间为 t2 - t1,B 为 0
我的问题是:在这种情况下,在计算page stay time
B时,我们是否需要检查用户是否从页面A点击页面B?即B的参考是A?
python - 更改绘图上的轴值
如何更改一个轴上的数据?
我正在对一些数据进行一些频谱分析,我的 x 轴是一些矩阵的索引。我想改变它,使 x 轴成为数据本身。
我正在使用 imshow() 绘制数据(我有一个矩阵,其元素是一些强度,y 轴是它们的检测器-源对应对,x 轴应该是它们的频率)。
它的代码写在这里:
我认为如果有办法将某个数组的索引与其值交换,我的问题就会得到解决。
我设法使用了这条线locs, labels = xticks(find(b[1]), b[1])
。但是在我的图表上,我的轴间隔不正确......我认为它与 MaxNLocator (我用来减少滴答数)有关。
如果我使用 xlim,我可以将图形设置为我想要的,但是 x 轴仍然是相同的(在那个 xlim 上我必须使用原始数据来正确设置它)。
我究竟做错了什么?