问题标签 [churn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1842 浏览

python-3.x - 计算熊猫的月流失率

这是我的数据框中的数据示例:

我需要计算每月的流失率。我需要对列中的 2 行求和new,然后将值drop除以这个总和(以 % 为单位)。

请问有人可以提出一种优雅的方式吗?

0 投票
1 回答
199 浏览

r - 计算按年划分的保留率

按年份划分计算保留率/流失率

亲爱的社区,我正在从事一个数据挖掘项目,我想将先前的想法从 excel 转换为 R。

我有一个包含合同数据的客户数据库,并想计算保留率。我在玩这些library(lubridate)library(reshape2); library(plyr)但我无法弄清楚它在 R 中是如何工作的。

我有这样的数据:

我现在正在考虑将数据拆分为年份(df2000,df2001),然后在主表中存在客户名称时再次查找(如果是,则返回 1)。

结果可能如下所示:

0 投票
1 回答
742 浏览

python - 什么时候应该使用时间序列分析与非时间序列分析?

我正在尝试预测客户流失,为此我的因变量是一个二元变量。自变量可以是分类、整数或时间序列数据。我处于特征选择模式,想知道我是否在运行关联,是否应该对时间序列数据运行关联。如果我确实使用包装器方法并使用 ML 算法来解决此类问题,我是使用更适合时间序列分析的 ARIMA 模型还是决策树模型?

我尝试使用 Spearman 相关性,但没有找到任何显着的相关因变量

0 投票
0 回答
3361 浏览

python-3.x - ValueError : Pandas 数据转换为对象的 numpy dtype。使用 np.asarray(data) 检查输入数据

我正在尝试通过逻辑回归模型预测电信用户的流失,我得到

ValueError:Pandas 数据转换为对象的 numpy dtype。使用 np.asarray(data) 检查输入数据。

0 投票
1 回答
162 浏览

python - Python中的流失模型?

流失率 - 从最广泛的意义上说,是衡量在特定时期内从集体群体中移出的个人或物品的数量。

我的问题是我可以通过使用 Python 使用逻辑回归在流失模型中调查什么?

0 投票
3 回答
171 浏览

r - 计算 R 中一列的保留率

我需要您的建议,因为我正在努力在 R 中找到正确的命令。

基本上我想计算特定客户的保留率。customer_math 是客户活跃时间的快照,包括 8 年的时间范围。

最终数据集应如下所示:

关于如何解决我的问题的任何想法?

非常感谢您的帮助!谢谢!

0 投票
1 回答
186 浏览

sql - 如何从事务数据创建流失表?

目前我的交易表有每个月的客户交易数据。Account_ID 标识客户的 ID。Order_ID 是客户已下订单的数量。Reporting_week_start_date 是从星期一开始的每笔交易发生的星期(Date_Purchased)。

每次交易完成后,如何创建一个新表来识别 customer_status?请注意,尽管没有进行任何交易,但新表的 Reporting_week_start_date 直到当前日期。

客户状态

交易表

预期产出

0 投票
2 回答
848 浏览

sql - 如何计算 bigquery 中的月留存用户?

我有如下原始数据。每行是用户的交易记录,以及他们进行交易的月份
在此处输入图像描述


我想要的是计算一个月内下单的用户数和上个月的重复用户数(RETENTION),然后我可以知道有多少%的用户是重复用户。

期望的结果应该是这样的 在此处输入图像描述

我怎样才能在大查询中做到这一点?

0 投票
0 回答
74 浏览

machine-learning - 流失预测中的特征选择

我已经为一家电子商务公司的数据建立了一个流失预测模型。在该模型中,流失标准将在数据中最后一个可用日期起 12 个月内处于非活动状态。在构建模型时,我创建了一些计算特征来考虑预测中的活动。我将客户最近 3 个月和 6 个月的活动添加为二进制文件。它们与流失的相关性分别为 0.5 和 0.7。当我检查网络上的其他流失预测模型时,我在一些项目中看到了类似的指标,而另一些项目不包括这样的指标。

我的模型的准确率约为 90%,我担心如果我将客户最近 3 个月和/或 6 个月的活动作为模型的输入做错了。此外,我应该担心 3m 活动和 6m 活动之间的相关性吗?我使用 PCA 进行特征提取,保持 0.95 的方差,但这足以避免相关问题吗?

0 投票
2 回答
878 浏览

r - 如何将先前的权重合并到我的 GLM 函数中?

我正在尝试使用中。我使用的数据集是为了预测客户流失而创建的。

到目前为止,我正在使用以下功能:

我正在寻找的是 weights 函数如何工作以及如何将其包含在函数中,或者是否有其他方法可以合并它。因变量是选项为 0 或 1 的名义变量。数据集是不平衡的,因变量 CH1 只有 10% 的值为 1,而其他 90% 的值为 0。因此,权重是 (0.1, 0.9)

我的数据集是按以下方式建立的:

数据集预览

在连续变量和类变量之间,自变量的数据类型不同,并且