问题标签 [predictive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
128 浏览

machine-learning - 如何通过过去的数据预测未来的数据?

如果我有员工过去几年的数据,并想根据他们休假的行为预测未来的数据,哪种算法或模型最适合?有什么建议或建议吗?

例如:我在 2019 年 6 月休了 10 天,在 2019 年 12 月休了 15 天,但是我在 2018 年 6 月休了 15 天,在 2018 年 12 月休了 15 天,那么 2020 年 6 月和 12 月的预测是什么?显然,这不足以预测这一点,但它只是一个想法来理解问题。

有什么想法吗?

0 投票
1 回答
48 浏览

r - R 中有没有办法确定变量中的哪些级别在 GBM 预测模型中最重要?

我使用 R 中的 GBM 包构建了一个预测模型。我得到了很好的结果,并且我能够看到特征重要性列表来了解哪些变量对模型最重要。我正在为一位编辑询问变量方向的问题而苦苦挣扎。

例如: 年龄变量:哪个年龄组最重要,而不是总体年龄?
region:具体是哪个区域,而不是区域作为变量的整体?

我看到了一些使用 LIME 的实现,但是 GBM 包与 LIME 不兼容,我正在努力实现它。有没有手动的方法来查看这个?

我目前的想法是逐个运行 GBM 模型并比较结果。例如,运行区域 A 和所有其他区域相同,然后运行区域 B、C、D、E 等。比较最终结果并查看有关每个变量水平的更多信息。

有没有人有进一步的建议或更快的解决方案?谢谢

0 投票
1 回答
25 浏览

python - 确定哪种干预最能预测 python 的结果

我是 ML 新手,目前正在使用 Python。如果我正在测试针对某个结果的一组干预措施。我应该开始学习什么样的工具/Python程序来开始确定哪种干预(或干预组合)最有可能预测某个结果。

这是一个例子:我想测试哪些干预措施最有效地促进回收行为(结果是“是”或“否”回收)......将使用不同的干预组合(即电话、电子邮件提醒、文本提示等)。我想确定哪些干预措施(或干预措施的组合)在促进回收方面最成功

谢谢大家,保持健康!

0 投票
1 回答
110 浏览

python - python中的曼哈顿距离问题不使用scikit学习模块?

我需要根据 5 个宏观经济和社会特征/指标(预期寿命、婴儿死亡率、军事支出占 GDP 的百分比等)预测一个国家的某个指标水平(1-100 级),这是目标特征)

我需要使用 3-最近邻预测模型和加权 k-nn

我还需要在范围标准化后进行预测。

我正在寻找一些关于如何在 python 中实现这一点的想法

谢谢

0 投票
1 回答
105 浏览

python-3.x - Pandas & Matplotlib:个性化折线图中的日期格式

我想让 x 轴上的日期看起来更漂亮,目前甚至无法读取日期。最好的方法是什么。下面是代码,也是实际的图形图片

在此处输入图像描述

0 投票
0 回答
50 浏览

r - R:正确理解 K-Fold 验证?

下午好。

在对k-Fold Cross-Validation进行研究后,我想要进行一次完整性检查。我将提供我的理解,然后提供一个示例来说明如何在R中执行先入为主的理解。

如果我的想法不正确,或者我的代码没有反映我的思维过程/正确的程序,我将非常感谢任何帮助。以连续响应变量的基本预测建模场景为例:

  • 拥有人口数据集 (xDF)
  • 我想将数据集拆分为 k=10 个单独的部分,在其中 9 个(绑定)上训练模型,然后在剩余的验证集上进行验证
  • 然后,我想遍历每个验证集,以观察模型在未经训练的数据段上的表现
  • 在第k+1...k+9个验证集上显示相似结果的第 k倍验证集上的模型性能测量(此示例中为RMSE )表明该模型具有良好的泛化性

代码:

我这样做对吗?

提前谢谢了。

0 投票
0 回答
21 浏览

r - 使用交叉验证找到最佳的唯一词数以估计具有目标 x 的预测模型

我想知道是否有人可以告诉我如何通过文本挖掘找到最佳数量的唯一词,以用于预测模型。这是通过进行情绪分析来完成的(这对于预定数量的单词来说是完全可以的)。

但是,我必须找到一种方法,使我能够用 n 个单词测试准确性,最终选择产生最高结果的数字。是否有一个可以用来这样做的指标?该作业提到了一些关于交叉验证的内容,但是,我很确定那是指预测模型。

有人可以帮我解决这个问题吗?

0 投票
1 回答
78 浏览

machine-learning - 调用 GET /3/Jobs h2o 模型训练时出错 大数据上的错误

我正在尝试在大数据(200 万交易数据)上构建模型并低于错误。在进度条中模型构建没有进展,一段时间后作业停止并出现以下错误。我们在单节点和 h2o 中运行不分发。请建议这是否与内存问题有关。比如如果我们有 20 GB 的训练数据,那么应该给 h2o 多少内存,堆大小?是否所有完整的训练帧都存储在堆内存中?

谢谢迪普蒂

0 投票
1 回答
414 浏览

r - 如何正确使用 R 中的预测函数

首先我要给你一些入门代码:

现在,我试图预测第 90 个数据点将使用多项式回归,其中数据#1 为 0,#89 为 681。我已经测试了我的模型,我决定将多项式曲线8度是完美的契合。

我已经尝试了代码predict(formula=y~poly(x,8),90),它给出了一些奇怪的错误(这对我来说没有意义)关于如何没有适用的方法。

为什么这不起作用?在搜索了无数 R 文档、博客和论坛之后,在我看来这应该可以正常工作。

相反,什么有效?我尝试了其他使用预测方法的方法,我认为这是最接近我想要的解决方案:第 90 个数据点的预测值。

还有其他建议吗?我不确定我的模型是否是最好的,我欢迎您提出任何建议。例如,您可能会争辩说使用 6 次多项式比 8 次多项式进行建模更好,如果您有正当理由,我会同意您的看法。

谢谢!

注意:请不要删除谢谢。我知道有些 Stack Overflowers讨厌它,但我觉得它给人一种个人感觉。

0 投票
1 回答
1464 浏览

python-3.x - 从偏态分布生成高、中、低类别

我一直在使用 XGBoost 在 Python 中研究流失预测用例。对年龄、任期、最近 6 个月收入等各种参数进行训练的数据为我们提供了根据员工 ID 预测员工是否可能离职的预测。此外,如果用户想了解为什么这个 ML 系统将员工分类为这样,用户可以看到对此做出贡献的特征,这些特征是通过 eli5 库从模型中提取的。因此,为了让用户更容易理解这一点,我们为每个功能创建了一些范围:

为了定义这些范围,我们分析了每个特征的分布并手动定义了我们在系统中使用的范围。我们在训练数据中看到了每个特征对目标变量 IsTerminated 的影响。以下是 Tenure 分配的示例。

在此处输入图像描述

在这里,绿色条代表被解雇或离职的员工,粉红色代表没有离职的员工。

所以问题是,随着时间的推移和新数据将被添加到模型中,这些特征的风险范围会发生变化。在这个任期的例子中,如果员工的任期为 780 天,一个月后他的任期特征将显示 810。显然,我们将“低风险”的上限保持为开放式。但真正的问题是,我们如何以编程方式定义内部边界/范围?