问题标签 [prediction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
269 浏览

recommendation-engine - 如何处理推荐系统的新数据?

这是一个理论问题。假设我已经实现了两种类型的协同过滤:基于用户的 CF 和基于项目的 CF(以Slope One的形式)。

我有一个很好的数据集供这些算法运行。但后来我想做两件事:

  1. 我想为数据集添加一个新评级。
  2. 我想编辑现有评级。

我的算法应该如何处理这些变化(不做很多不必要的工作)?任何人都可以帮助我吗?

0 投票
1 回答
594 浏览

prediction - R-预测区间

包含 47 个 obs 和 5 个变量的数据集(男性编码为 0,女性编码为 1)试图预测具有平均地位、收入和语言的男性将花费 95% CI。

我用我lm<-spending ~ status + income + verbal + sex, teenspend的来获得平均值。我发现我的系数为:

一些问题:我使用了上述预测,但我得到了所有的观察结果,我如何找到我的预测?

请说清楚?

0 投票
2 回答
2831 浏览

r - 如何在 R 中创建显示预测模型、数据和残差的图表

给定两个变量xy,我对变量运行 dynlm 回归,并希望根据其中一个变量绘制拟合模型,底部的残差显示实际数据线与预测线的差异。我以前见过它,我以前也做过,但是对于我的一生,我不记得如何去做或找到任何解释它的东西。

这让我进入了我有一个模型和两个变量的球场,但我无法获得我想要的图表类型。

我想生成一个看起来像这样的图表,您可以在其中看到模型和真实数据相互重叠,并将残差绘制为底部的单独图表,显示真实数据和模型如何偏离。 目标

0 投票
1 回答
2072 浏览

r - how to do predictions from cox survival model with time varying coefficients

I have built a survival cox-model, which includes a covariate * time interaction (non-proportionality detected). I am now wondering how could I most easily get survival predictions from my model.

My model was specified:

And now I was hoping to get a prediction using survfit and providing new.data for the combination of variables I am doing the predictions:

Now as I have event_time_mod in the right-hand side in my model I need to specify it in the new data frame passed on to survfit. This event_time would need to be set at individual times of the predictions. Is there an easy way to specify event_time_mod to be the correct time to survfit? Or are there any other options for achieving predictions from my model?

Of course I could create as many rows in the new data frame as there are distinct times in the predictions and setting to event_time_mod to correct values but it feels really cumbersome and I thought that there must be a better way.

0 投票
1 回答
1304 浏览

r - Svm 建模 :: Error in which.max(votematrix[, x]) : subscript out of bounds

有一个分类问题,我在 R 中使用 SVM 进行预测。在数据集中,有整数和分类变量。使用 predict 方法进行预测时出现错误。

对于这个建模

第一:使用训练数据集开发模型

第二:保存和加载模型以在测试数据集上进行预测

[下载样本数据集] http://www.2shared.com/file/tQRapbBt/input_dataset3.html

【重现R脚本】http://www.2shared.com/file/NpDs5V-9/data1_train.html

任何人都可以提出建议吗?

0 投票
2 回答
13220 浏览

machine-learning - 在 Weka 中对单个实例进行分类

我使用 WEKA gui 训练并创建了一个 J48 模型。我将模型文件保存到我的计算机上,现在我想用它来分类我的 Java 代码中的单个实例。我想得到属性“集群”的预测。我要做的是:

但是,我在行上得到一个 IndexArrayOutofBoundsException inst_co.setValue(latitude, lat);。我找不到此异常的原因。如果有人能指出我正确的方向,我将不胜感激。

0 投票
3 回答
20382 浏览

algorithm - 神经网络和算法,从过去预测未来结果

我正在研究一种算法,在那里我得到了一些输入并为它们提供了输出,并给出了 3 个月的输出(给予或接受)我需要一种方法来查找/计算可能是未来的输出。
现在,给出的这个问题可能与证券交易所有关,我们被赋予了一定的约束和一定的结果,我们需要找到下一个。
我偶然发现了神经网络股票市场预测,你可以用谷歌搜索,或者你可以在这里这里这里阅读。

要开始制作算法,我无法弄清楚层的结构应该是什么。
给定的约束是:

  • 输出总是整数。
  • 输出总是在 1 到 100 之间。
  • 说没有确切的输入,就像股票市场一样,我们只知道股票价格会在 1 和 100 之间波动,所以我们可能(或不?)认为这是唯一的输入。
  • 我们有过去 3 个月(或更多)的记录。

现在,我的第一个问题是,我需要多少个节点作为输入?

输出只有一个,很好。但正如我所说,我是否应该为输入层使用 100 个节点(假设股票价格总是整数并且总是 btw 1 和 100?)

隐藏层呢?有多少个节点?比如说,如果我在那里也有 100 个节点,我认为这不会对网络进行太多训练,因为我认为对于每个输入,我们还需要考虑所有先前的输入。

假设我们正在计算第 4 个月的第 1 天的输出,我们应该在隐藏/中间层有 90 个节点(为简单起见,假设每个月为 30 天)。现在有两种情况

  • 我们的预测是正确的,结果和我们预测的一样。
  • 我们的预测失败了,结果与我们预测的不同。

无论如何,现在当我们计算第 4 个月的第二天的输出时,我们不仅需要这 90 个输入,还需要最后一个结果(而不是预测,同样的!),所以我们现在在我们的中间/隐藏层中有 91 个节点。

依此类推,它将每天不断增加节点数量,AFAICT。

所以,我的另一个问题是如何定义/设置隐藏/中间层中的节点数,如果它是动态变化的。

我的最后一个问题是,是否还有其他我不知道的特定算法(对于这种事情/东西)?我应该使用而不是搞乱这些神经网络的东西吗?

最后,有什么我可能遗漏的东西可能会导致我(而不是我正在制作的算法)预测输出,我的意思是任何警告,或者任何可能导致我可能遗漏的错误?

0 投票
4 回答
7530 浏览

r - 如何在没有数据或仅使用系数进行预测的情况下保存 glm 结果?

当我使用以下 R 代码时,

模型文件的大小将与数据一样多,在我的情况下为 1gig。如何删除model_glm结果中的数据部分,所以只能保存一个小文件。

0 投票
2 回答
30662 浏览

dataset - 如何使用 Weka 预测结果

我是 Weka 的新手,我对这个工具感到困惑。我有一个关于水果价格和相关属性的数据集。我正在尝试使用数据集预测具体的水果价格。由于我是 Weka 的新手,所以我不知道如何完成这项任务。请帮助我或指导我学习有关如何进行预测的教程,以及此任务的最佳方法或算法是什么。

0 投票
1 回答
168 浏览

machine-learning - 热门商品建议 - 时间敏感数据 - 数据挖掘

我是数据挖掘领域的新手。我正在研究非常有趣的 Data Minign 问题。数据说明如下:

数据是时间敏感的。项目属性取决于时间因素及其类别标签。我将每周数据分组为训练或测试记录的一个实例。每周,一些项目属性可能会随着它的流行度(即类别标签)而变化。

部分样本数据如下:

我的研究顾问建议使用朴素贝叶斯算法,它可以适应这种随时间变化的动态数据。

我使用 2000-2004 年的数据作为训练,2005 年作为测试。如果我在我的项目数据集中包含 Week-Year 属性,那么它将导致朴素贝叶斯的概率为 0。按时间顺序组织数据后,可以从我的数据集中省略此属性吗?

此外,当我阅读新的测试用例时如何调整我的模型?因为新的测试用例可能会导致类标签的变化?