问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

data-visualization - 用于探索和分析大数据的架构

我们正计划为大量事件(以百万计)构建一个数据探索系统。事件由时间、纬度/经度坐标和其他一些具有域约束值的属性组成,例如类型和用户 ID。

目标是在三个面板上提供数据的可视化:

  • 地图(事件聚集在标记或热图中)
  • 时间直方图(事件按日期分布)
  • 属性直方图(属性直方图:类型、用户、...)

用户将通过过滤属性(方面)、时间间隔或空间范围以交互方式深入数据。

我们正在考虑一个 OLAP 服务器,但不知道这是否是最合适的解决方案。

哪种架构/系统可以在如此大的数据集上处理此操作?对此有何经验或建议?最好使用开源组件。

谢谢

0 投票
2 回答
285 浏览

java - 搜索 Java 库以构建与数据交互的应用程序

我有一个项目,我应该通过聚类分析来分析数据。基本上数据应该像这张图片显示的那样可视化小样 每个数据集 - 例如让它成为人 - 是一个水平行,其中垂直线显示性别,年龄等属性。现在,如果可以显示此数据,我还想水平和垂直移动行 a) 通过代码和 b) 通过拖放。

有人知道一个好的图书馆吗?

重要的

  • 目标是桌面应用程序
  • 预期数据集约 500
  • 每个数据集的属性大约 60
  • Java/SWT 中已经有一个应用程序,因此首选此方向的解决方案
  • 操作系统是 Win7,所以 C# 或类似的将是权宜之计
  • 我真的很喜欢d3.js,并且更喜欢类似的锁和感觉(但在 3D 中)

如果有人对有助于分析数据的库有建议,也请站出来!

0 投票
5 回答
11185 浏览

python - 在非超级计算机上处​​理大量数据的通用技术

我正在学习一些人工智能课程,并且已经了解了一些我想尝试的基本算法。我通过举办数据分析竞赛的Kaggle访问了包含大量真实世界数据的多个数据集。

我曾尝试参加几场比赛来提高我的机器学习技能,但一直无法找到访问代码中数据的好方法。Kaggle 以 csv 格式为每个比赛提供一个 50-200mb 的大数据文件。

在我的代码中加载和使用这些表的最佳方式是什么?我的第一直觉是使用数据库,所以我尝试将 csv 加载到 sqlite 单个数据库中,但这给我的计算机带来了巨大的负载,并且在提交期间,我的计算机经常崩溃。接下来,我尝试在共享主机上使用 mysql 服务器,但对其进行查询需要很长时间,这让我的分析代码非常慢。另外,我担心我会超出我的带宽。

到目前为止,在我的课程中,我的导师通常会清理数据并为我们提供可完全加载到 RAM 中的可管理数据集。显然,这对我目前的兴趣来说是不可能的。请建议我应该如何进行。我目前正在使用一台 4 年前的 4gb ram 和双核 2.1Ghz cpu 的 macbook。

顺便说一句,我希望在 Python 中进行大部分分析,因为我最了解这种语言。我想要一个解决方案,让我可以用这种语言进行所有或几乎所有编码。

0 投票
0 回答
117 浏览

metadata - 如何注释文件 - 当长文件名不够用时

我使用许多文件进行一般数据分析。

关于我的文件,我想知道的事情包括:

  • 文件中包含哪些数据(很长很长的描述性英文文本)?
  • 文件是从某处下载的(在哪里?何时?)还是由程序生成的(哪个?)
  • 我为什么制作这个文件,口头描述我想用它做什么,它在我的数据分析工作流程中的位置(附加英文文本描述,也可以很长)

为此,长文件名根本不是解决方案!即使是长文件名对于完整的描述来说也太短了,而且当实际使用文件(perl、awk、R)时,长文件名会妨碍。

我现在要做的是在每个目录中使用文件名、制表符分隔符和详细描述制作自述文件。但是,您可以想象,此解决方案非常麻烦,因为描述与文件系统和所有内容完全分离,自述文件必须单独维护和更新等。

是否有任何工具可以用于对文件名进行真正冗长、系统的描述?甚至可能集成到文件系统中?

使用的操作系统:Windows 7 和 Cygwin,通过 SSH 和导入 X 的各种风格的 linux/unix

0 投票
1 回答
8108 浏览

algorithm - 确定一组数据是来自线性函数还是对数函数?

我有一组数据点,我很好奇数据是代表线性函数还是对数函数。

数据集是二维的。

假设一组理想的数据点遵循函数 f(x) = x。如果我绘制数据点,我将能够告诉它是线性的。

同样,如果数据点遵循函数 f(x) = log(x),我将能够直观地看出它是对数的。

另一方面,让程序确定一组数据是线性的还是对数的,这是不平凡的。我将如何处理这个?

0 投票
3 回答
1720 浏览

algorithm - 通过一组连接的节点/流程图查找所有非重复路径

我试图了解是否有可能以任何合理的方式通过给定的流程图建立一组非重复路径。

以下是关于我所拥有的流程图的一些基本事实:

  • 他们有一个或多个起点
  • 他们有一个或多个端点
  • 所有起点都有一个从它们引出的连接器
  • 所有步骤至少有一个或多个入站连接器和一个或多个出站连接器
  • 如果有以下一项以上,则必须分别命名:
    • 启动终止符
    • 终结者
    • 从一个步骤引出的连接

我可以访问我能想象到的所有数据(查找所有起点、获取所有连接、连接名称等)。

我基本上想在整个过程中找到尽可能多的独特路径,从起点到终点,您不会反复绕圈。因此,您可以多次执行相同的步骤,但在任何给定的路线中,您不能多次重复完整的电路。

这似乎是人们会写论文并证明为什么可以或不能完成的事情的类型,我只是不知道我需要用谷歌搜索的魔法词;-) Sudo 代码或类似代码将是理想的(而且令人惊叹)但如果​​有人能指出我正确的方向,我很乐意自己阅读。

非常欢迎和非常感谢任何搜索词的建议

请注意,我会对提出许多额外“愚蠢”可能性的解决方案感兴趣,这些可能性必须由人事后审查 - 看看它产生了什么仍然很有趣。

一个例子来澄清事情:

一些路线通过:

  • 开始,A,B,C:1,D,结束
  • 开始,A,B,C:2,F:1,E:1,B,C:1,D,结束
  • 开始,A,B,C:2,F:1,E:2,G,A,B,C:1,D,结束
  • 开始,A,B,C:2,F:2,D,结束

不错,但是更有趣的呢:

  • 开始,A,B,C:2,F:1,E:2,G,A,B,C:2,F:1,B,C:2,F:2,D,结束

我按了三下 C,每次我选择选项二并且没有重复。

加分:我在想我可以将一些具有多个出站连接器的节点标记为在任何给定的流程执行中是一致的。例如,如果有一个“编写代码”流程的决策点“语言”有两个出站连接器“c#”和“java”我可以说,在这个进程的任何给定执行中,它始终是 c# 或 java - 在进程执行期间永远不会改变。而不是像“有错误吗?”这样可能会改变的东西。在第一次通过时可能是肯定的,然后在第二次通过时(在一些修复错误步骤之后;-)可能会得到否定的结果。

您是否知道与此类额外分析/处理/定义相关的任何术语或技术?

编辑:我添加了一个在 JS 中实现的示例解决方案作为基于@Ishtar 的答案的答案。

0 投票
3 回答
8836 浏览

csv - 什么是好的 csv 数据分析工具/框架

有没有很好的工具来分析一些 csv 格式的数据文件。是否有任何易于使用的开源东西来显示来自 csv 文件的数据?(请不要提及excel...)。最重要的是一个简单的文件导入(或者可能是文件夹读出)机制。

0 投票
2 回答
87 浏览

php - PHP/MySQL - 跨多个集合分析公共集合

假设我有两张桌子,people并且families.

families有两个字段 -idname。该name字段包含家庭姓氏。

people包含三个字段 -idfamily_id-namefamily_id人所属的家庭的 id。该 name字段是该人的名字。

它基本上是一对多的关系,一个家庭有很多人。

我想获得一个名称集列表,按家族中最大名称集的最高出现次数排序。

这可能没有多大意义......

为了进一步解释我想要什么,我们可以对每组名称进行评分。“分数”是数组大小 * 跨族出现的次数。

例如,假设两个名字“John”和“Jane”都存在于三个家庭中 - 该集合的“分数”将是 2*3 = 6。

我怎样才能得到一组名称和集合的“分数”,按每个集合的分数排序?

示例结果集(我已将其放在表格布局中,但这可能是 PHP 中的多维数组) - 请注意,这只是随机想到的,不反映任何统计名称数据。

澄清一下,我对集合不感兴趣:

  • 出现次数为 1(显然,只有一个家族)。
  • 设置大小为 1(只是一个通用名称)。

我希望我已经解释了我有些复杂的问题 - 如果有人需要澄清,请说。

0 投票
1 回答
218 浏览

iphone - 从地理编码地址获取十字路口

假设我有很多与交叉口及其地理位置相关的 JSON 数据。

我有一个应用程序,用户在其中使用他或她当前的位置,我希望能够弄清楚他们在哪个街区(即他们所在的街道,以及两条十字路口之间)。最好的方法是什么?有什么好办法吗?

示例:我获取了用户的地理位置,将其反向地理编码为 435 W. 42nd st。使用该数据,我想知道用户位于第 42 街的第 9 大道和第 10 大道之间。

任何帮助深表感谢!

0 投票
1 回答
6476 浏览

python - 如何检测时间序列数据的变化是否不再显着?

我有一组有统计数据的新闻文章,例如:在某天范围内提及该文章的 Twitter 帖子数量。统计值的自然行为是新帖子的数量快速增长,然后随着新闻的老化而减少。

我想知道如何以一定的置信度计算整个数据集的统计数据变化不再显着(例如:< 总帖子的 0.1%)的天数。

您能否提供一些提示在哪里寻找信息和方法?我也很欣赏 Python 中的一些代码示例 :)