问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
12 回答
7677 浏览

image-processing - 识别数据模式的最佳方法是什么,以及了解有关该主题的更多信息的最佳方法是什么?

我正在与之合作的一位开发人员正在开发一个程序,该程序可以分析路面图像以发现路面裂缝。对于他的程序发现的每一个裂缝,它都会在一个文件中生成一个条目,告诉我哪些像素构成了那个特定的裂缝。他的软件有两个问题:

1)它产生了几个误报

2) 如果他找到裂缝,他只找到它的一小部分,并将这些部分表示为单独的裂缝。

我的工作是编写软件来读取这些数据,对其进行分析,并区分误报和实际裂缝之间的区别。我还需要确定如何将裂缝的所有小部分组合在一起。

我尝试了各种过滤数据以消除误报的方法,并且一直在有限程度上成功地使用神经网络将裂缝组合在一起。我知道会有错误,但到目前为止,错误太多了。对于非 AI 专家,是否有人对完成我的任务或了解更多信息的最佳方式有任何见解?我应该读什么样的书,或者我应该参加什么样的课程?

编辑我的问题更多是关于如何注意到我同事数据中的模式并将这些模式识别为实际裂缝。我关心的是高级逻辑,而不是低级逻辑。

编辑实际上,至少需要 20 张样本图像才能准确表示我正在使用的数据。它变化很大。但我这里这里这里都有一个样本。这些图像已由我同事的流程处理。红色、蓝色和绿色数据是我必须分类的(红色代表暗裂缝,蓝色代表浅裂缝,绿色代表宽/密封裂缝)。

0 投票
3 回答
753 浏览

hyperlink - 如何获取信息表单链接点击?

我想知道如何从链接点击中获取信息。

例如,用户登录并单击链接。是否可以记录这些信息?点击的链接数量,哪些链接等等......诸如此类的事情。

我不知道该怎么做。任何想法/信息链接?

0 投票
2 回答
5097 浏览

math - 在点云中查找线

我有一系列点。我知道这些点代表我页面中的许多行。

我怎样才能找到它们?我需要找到点云之间的间距吗?

谢谢乔纳森

0 投票
2 回答
8047 浏览

python - 如何获得由等高线图绘制的线的 (x,y) 值?

有没有一种简单的方法来获取这样绘制的等高线的 (x,y) 值:

0 投票
3 回答
3987 浏览

r - 在 R 中以交互方式获取库的内容

R中是否有等效的dir函数(python)?

当我在 R 中加载一个库时 -

库(vrtest)

我想知道该库中的所有功能。

在 Python 中,dir(vrtest) 将是 vrtest 的所有属性的列表。

我想一般来说,我正在寻找在 Linux 上的 ESS 中运行 R 时获得 R 帮助的最佳方法。我看到了我已安装的软件包的所有这些手册页,但我不确定如何访问它们。

谢谢

0 投票
0 回答
167 浏览

logging - 显示访问日志分析

我正在做一些工作来分析来自 Catalyst Web 应用程序的访问日志。数据来自网络场前面的负载均衡器,每天总计约 35Gb。它存储在Hadoop HDFS 文件系统中,我使用 MapReduce(通过Dumbo,这很棒)来处理数字。

分析的目的是尝试建立使用配置文件——哪些操作使用最多,每个操作的平均响应时间是多少,响应是从后端还是缓存提供的——用于容量规划、优化和设置监控系统的阈值。像 Analog 这样的传统工具会为我提供请求最多的 URL 或最常用的浏览器,但这些对我来说都没有用。我不需要知道那/controller/foo?id=1984是最流行的 URL;我需要知道所有命中的命中率和响应时间是多少,/controller/foo以便我可以查看是否有优化或缓存的空间,并尝试估计如果此操作的命中突然翻倍可能会发生什么。

我可以通过 MapReduce 轻松地将数据分解为每个时间段每个操作的请求。问题是以易于理解的形式显示它并挑选出重要的趋势或异常。我的输出形式为:

即,键是时间段,值是(action, hits, cache hits)每个时间段的元组。(我不必坚持这一点;这就是我到目前为止所拥有的。)

大约有 250 个动作。它们可以组合成较少数量的组,但在同一个图表上随时间绘制每个操作的请求数量(或响应时间等)可能不起作用。首先,它太吵了,其次,绝对数字并不重要——对于经常使用的、轻量级、可缓存的响应的请求,每分钟增加 100 个请求远不如每分钟增加 100 个请求重要在一个很少使用但昂贵(可能会命中数据库)不可缓存的响应中。在同一张图表中,我们不会看到很少使用的操作的请求变化。

静态报告不太好——一个巨大的数字表很难消化。如果我按小时汇总,我们可能会错过重要的每分钟更改。

有什么建议么?你是如何处理这个问题的?我想一种方法是以某种方式突出每个操作的请求率或响应时间的重大变化。滚动平均值和标准偏差可能会显示这一点,但我可以做得更好吗?

我还能生成哪些其他指标或数据?

0 投票
1 回答
8291 浏览

python - Matplotlib:在 3D 条形图中格式化 x 轴上的日期

鉴于此3D 条形图示例代码,您将如何将 x 轴中的数字数据转换为格式化的日期/时间字符串?我尝试使用 ax.xaxis_date() 函数但没有成功。我还尝试使用 plot_date(),它似乎不适用于 3D 条形图。这是示例代码的修改版本,以说明我正在尝试做的事情:

替代文字

0 投票
2 回答
838 浏览

amazon-s3 - 在 amazon ec2/S3 上开发数字运算应用程序的工作流程

关于在 EC2/S3 上部署数据处理应用程序的文章很多,但我想知道,开发此类应用程序的典型工作流程是什么?

假设我有一个 1 TB 的时间序列数据,我已经设法将它存储在 S3 上。我将如何编写应用程序并进行交互式数据分析以构建机器学习模型,然后编写大型程序来测试它们?换句话说,在这种情况下如何设置开发环境?我是否要启动 EC2 实例,在其上开发软件并保存我的更改,然后每次我想做一些工作时关闭?

通常,我启动 R 或 Pylab,从本地驱动器读取数据并进行分析。然后,我根据该分析创建应用程序,并让它在该数据上松散。

在 EC2 上,我不确定我是否可以这样做。人们是否将数据保存在本地进行分析,并且仅在需要运行大型模拟作业时才使用 EC2?

我很想知道其他人在做什么,尤其是那些拥有基于 EC2/S3 的整个基础架构的初创公司。

0 投票
7 回答
5194 浏览

c# - 分析大量数据的有效方法?

我需要分析数万行数据。数据是从文本文件中导入的。每行数据有八个变量。目前,我使用一个类来定义数据结构。在阅读文本文件时,我将每个行对象存储在一个通用列表 List 中。

我想知道是否应该切换到使用关系数据库 (SQL),因为我需要分析每一行文本中的数据,试图将其与我目前也存储在通用列表 (List) 中的定义术语相关联。

目标是使用定义翻译大量数据。我希望定义的数据是可过滤的、可搜索的等。我越想越觉得使用数据库越有意义,但我想在进行更改之前与更有经验的开发人员再次确认(我使用的是结构和首先是数组列表)。

我能想到的唯一缺点是数据在用户翻译和查看后不需要保留。不需要永久存储数据,因此使用数据库可能有点矫枉过正。

0 投票
2 回答
97 浏览

data-analysis - 建立 URL 索引,包括哪些功能?

我正在努力建立一个URL索引。目标是构建和存储一个数据结构,该结构具有作为域 URL 的键(例如 www.nytimes.com),值将是与该 URL 关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将 www.nytimes.com 存储如下:

[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001, etc..]

为什么我要建造这个?好吧,最终目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我有很多文本,这些文本是由整个时间段内的大量 URL 生成的很多时间:) 所以数据不是问题。

任何形式的建议都非常受欢迎。