问题标签 [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将间隔日期时间值转换为任意频率的时间序列
我有以下数据结构:
这是包含开始日期、结束日期和值的间隔(日期之间记录的一些指标)。
为了进一步的数据分析,我需要生成具有所需频率的时间序列: 每月/每天/每小时/半小时时间序列。例如,每小时数据:
是否有任何 python 库可以帮助实现这种数据转换?
matlab - 使用机器学习进行预测/延迟预测?
我有一组过去 5 年的数据。大约 7000 行数据,其特征为二进制 {yes/no} 或多分类 {product A, B, C} 总共约 20 多个特征。
我正在尝试制作一个程序(或一次分析项目)来根据此历史数据确定(预测)产品发货日期(发货延迟天数)。我有两列表示产品计划何时发货,另一列表示实际发货时间!目前。
我想知道如何制作一个预测程序,根据历史数据确定产品的新数据输入何时预计发货。我不在乎得到一个具体的日期,甚至只是一个可以告诉我要添加的延迟天数的程序...
不久前我参加了 ML 课程,但我不知道如何开始这样的事情。有什么建议吗?再加上我能想到的最接近的事情是使用 NN 的图像识别任务。但这太容易了,我必须处理日期而不是像素白色/黑色......我以前使用过 Matlab(我仍然知道如何使用它)但我刚刚下载了 Weka 数据挖掘工具。
我正在考虑一个神经网络,但我不确定如何设置它以让我的程序从输入的发货日期给我一个预期的延迟时间(天数/月数)。
基本上,
我想输入(尺寸 = 5,产品 = A,....,预计发货日期 = 1 月 1 日)
考虑到历史趋势,程序返回天数作为延迟添加到我的预期发货日期......
对于如何以正确/最简单/最好的方式开始这样的事情,我们将不胜感激......在此先感谢。
r - 以非均匀时间间隔计算 MSD
我有一个矩阵,它有 2 列,x 和 y 坐标。我想计算均方位移 - 这是在给定时间内从起点移动到另一个点的平方距离,在许多不同的时间点上平均 - 假设所有时间间隔都相等。
所以工作公式是:
MSD=average(r(t)-r(0))^2 where r(t) is position at time t and r(0) is position at time 0.
所以我用来计算的代码是:
这mat
是 x 和 y 值的矩阵。
所以这个公式在两个连续点之间的时间被认为是常数时有效。但是假设每 2 个坐标之间的时间不同,那么我该如何合并该组件来计算 MSD?
algorithm - 如何提取具有一定数量公共子节点的节点组
我正在解决一个测验,需要一些建议。
测验摘要如下:
分析书签服务(如delicious、digg...)的数据并提取具有两个以上公共标签的url 组。
- 每个书签数据包含 1) 用户 ID、2) url 和 3) 一个标签数组。
- 与所有 url 相比,所有标签的大小都相对较小。也就是说,人们用有限的集合为网站添加书签
- 分配给 URL 的所有标签都不同
- 如果不同的用户为同一个 URL 添加了书签,你不应该将他们分成组。(但是,这是一个可选条件。你可以忽略 user_id 并假设所有 URL 都不同。)
例子:
以下两组 URL 将是结果
因为 (siteA, siteB, siteD) 共享两个公共标签 (tag1, tag2) 并且 (siteA, siteC) 也共享两个公共标签 (tag1, tag3) 。
-- 条件 3,4 并添加了一个示例。谢谢@btilly。
我的问题是
- 如何解决(或可以应用哪种算法)并且实际上快速?
- 有没有可以用与这个问题类似的算法来解决的代表性问题?
machine-learning - Weka 预测(百分比置信度) - 这是什么意思?
我一直在自学 Weka,并学会了如何构建模型并从中获得预测(使用 CLI 进行预测)。
当我对来自先前构建的模型的数据集运行预测时,我得到一个列,该列是“预测”,也称为每个预测实例的预测置信度。
我知道百分比置信度意味着什么,但我的所有预测不应该是我的 Weka 模型的准确性吗?
又名,如果我有一个准确率为 90% 的 J48 决策树分类器,那么使用此模型的每个分类实例不应该是 90% 的预测置信度吗?
任何人都知道这个百分比置信度是如何计算的,或者在告诉别人我的模型时我应该如何阅读错误预测和模型准确性?谢谢
python - 异常拟合算法的优化
我有两组不同的随机分布的实验数据。我需要通过对它的每个值应用一些函数来使其中一个分布与另一个分布尽可能相似。函数示例:F(x) = x*(1+(x+p1)*p2,其中 p1 和 p2 是一些任意参数。找出是否可能,如果可能,那么 p1 的值是多少和 p2,我写了一个简单的 python 脚本:
我知道在所有可能的方式中,这是最丑陋和最慢的一种。不幸的是,我根本没有编程背景,这是我第一次卑微的努力。鉴于得到的分布的平均值是一个 khown 常数,适当的 p1-p2 对的数量非常有限,但我在这里使用了简单的蛮力。我认为,应该有某种方法可以将 p2 表示为 p1 的函数,但我完全不知道该怎么做。也许你可以给我一些想法?
对不起,我的英语不好...
r - 对数据进行分箱并绘制直方图
我有一个值列表(这些是正值和负值)。例如说我有 35000 个数字(+ve 和 -ve 都在其中)。
我想要做的是对它们进行装箱,即0-200(也从-200到0)、201-400(-400到201)之间的数值,......等等直到48,800-50000(- 50000 至 48,500)。
一旦我有了这些值,直方图或任何其他表示的绘制就更容易了。我可以将其用于 excel 或在 python 或 PERL 或 R 中绘制它。
但第一阶段本身有点棘手。
例如,您可以考虑以下数据:
谢谢
python - 分析无法装入内存的数据
我有一个数据库,其中包含需要分析的原始文本。例如,我收集了数亿个单独网页的标题标签,并根据主题对其进行聚类。我现在有兴趣对每个主题集群的子集执行一些额外的测试。问题有两个方面。首先,我无法将所有文本都放入内存来评估它。其次,我需要并行运行其中的几个分析,所以即使我可以将一个子集放入内存,我当然也无法将许多子集放入内存。
我一直在使用生成器,但通常有必要了解有关已加载和评估的数据行的信息。
我的问题是:处理和分析无法放入内存的数据的最佳方法是什么。数据必须从某种数据库中提取(目前是 mysql,但可能很快就会切换到更强大的解决方案。)
我正在构建处理 Python 数据的软件。
谢谢,
编辑
我将整天对此进行研究和集思广益,并计划继续发表我的想法和发现。请留下您可能有的任何意见或建议。
想法 1:标记单词和 n-gram 并保存到文件。对于从数据库中提取的每个字符串,使用已存在文件中的标记进行标记。如果令牌不存在,请创建它。对于每个单词标记,从右到左组合,直到字符串中所有单词的单一表示存在。搜索包含减少标记的现有列表(可以放入内存)以查找潜在的匹配项和相似性。每个简化的令牌都将包含一个指示令牌类别的标识符。如果发现简化标记(由单词标记组合创建的标记)与感兴趣的标记化字符串分类匹配,但不是直接匹配,那么简化标记将分解为其对应部分,并逐个单词进行比较。标记到感兴趣的字符串。
我不知道是否已经存在可以做到这一点的库或模块,我也不确定我会从中获得多少好处。但是,我的优先事项是:1)节省内存,2)担心运行时间。想法?
编辑 2
Hadoop 肯定会成为这个问题的解决方案。我在 python 和 hadoop 中找到了一些关于自然语言处理的好资源。见下文:
- http://www.cloudera.com/blog/2010/03/natural-language-processing-with-hadoop-and-python
- http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf
- http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python
- https://github.com/klbostee/dumbo/wiki/Short-tutorial
谢谢你的帮助!
r - 在 R 中创建图形用户界面
目前我正在 R 中进行数据分析。最终,我想创建一个可以提供分析摘要和主图的 GUI。有谁知道我是否可以使用 R 创建界面?如果没有,你知道我是否可以将 MATLAB(用于 GUI)和 R 结合起来吗?
感谢您的合作。
先感谢您!
matlab - csv 格式 matlab/gephi
几天来,我一直在一个棘手的数据集上同时使用 k-means 和 Fuzzy c 均值,它产生了不错的结果,但我想可视化和操作图形输出,我发现了一个很棒的可视化工具Gephi。如果您单击主页上的图片,它将加载您可以观看的视频。
在 gephis 支持的图形格式页面上,他们有一个可能的导入格式列表:
查看 matlab,我可以输出集群数据的格式可能是 csv。在 gehpis 网站上,他们解释了格式、边缘列表、混合、矩阵。
我不太确定他们的意思。在 matlab 中使用 FCM 我得到 3 个输出center、U和objFun。
所以我的问题是如何从这些数据中以他们需要的格式构建 CSV 文件。
https://gephi.org/users/supported-graph-formats/spreadsheet/
http://forum.gephi.org/viewtopic.php?t=1896
我将奖励任何可以提供 100 分的人,因为这个可视化工具是我从现在开始想要使用的工具,而且到目前为止还没有任何问题可以解释如何做到这一点。所以它可能对 gephi/matlab 用户的未来和社区有用。