我遇到了一个有趣的场景,称为点击流数据分析。我只知道什么是点击流数据。我想更多地了解这个和不同的场景,在这些场景中,它可以为企业的最大利益而使用,以及我们在每个场景的不同步骤中处理数据所需的工具集。
3 回答
什么是点击流数据?
这是用户在网上冲浪时留下的虚拟轨迹。点击流是用户在 Internet 上的活动的记录,包括用户访问的每个网站和每个网站的每个页面、用户在页面或站点上停留的时间、访问页面的顺序、任何新闻组用户参与的,甚至用户发送和接收的邮件的电子邮件地址。ISP 和个人网站都能够跟踪用户的点击流。
点击流数据可能包括以下信息:浏览器高度-宽度、浏览器名称、浏览器语言、设备类型(台式机、笔记本电脑、平板电脑、移动设备)、收入、日期、时间戳、IP 地址、URL、购物车中添加的产品数量、数量删除的产品、州、国家、帐单邮政编码、运输邮政编码等。
我们如何从点击流数据中提取更多信息?
在网络分析领域,网站访问者和潜在客户相当于基于主题的数据集中的主题。考虑以下点击流数据示例,基于主题的数据集以行和列的形式构成(如 Excel 电子表格)——数据集的每一行都是一个唯一的主题,每一列都是关于该主题的一些信息。如果要进行基于客户的分析,则需要基于客户的数据集。点击流数据最精细的形式如下图所示。来自同一访问者的点击已被颜色编码在一起。
数据科学家从点击流数据中获得更多特征。对于每个访问者,我们在一次访问中会有几次点击,并且在很长一段时间内,我们会有一系列访问。我们需要一种在访问者级别组织数据的方法。像这样的东西:
显然,有许多不同的方法可以聚合数据。对于页面浏览量、收入和视频浏览量等数字数据,我们可能希望使用平均值或总计等数据。通过这样做,我们可以获得有关客户行为的更多信息。如果您观察汇总图表,您可以很容易地看出该公司在周五获得了更多收入。
一旦您获得了基于客户的数据集,就有许多不同的统计模型和数据科学技术可以让您在访问者级别访问更深入、更有意义的分析。Data Science Consulting 在利用这些方法来:
预测哪些客户的流失风险最高,并确定影响该风险的因素(让您积极主动地留住客户群)
了解个别客户的品牌知名度水平
为客户提供个性化的相关优惠
预测哪些客户最有可能转化并从统计上确定您的网站如何影响该决定
确定访问者最有可能响应的网站内容类型,并了解内容参与如何推动高价值访问
定义访问您网站的不同角色的访问者的个人资料和特征,并了解如何与他们互动。
您可能还对以下 Coursera 课程感兴趣:
它是关于流程挖掘的,我认为它有点击跟踪分析作为一个特例。
以下内容可以概括地说明大多数公司所做的事情:
- 用于客户端传递事件的摄取 REST-ful API
- 将您的事件泵入 Kafka
- Spark 流式处理进行实时计算
- Gobblin(或类似的)将数据从 Kafka 泵送到 HDFS,然后在 HDFS 上运行批处理 M/R 作业
- 实时和批处理作业都将计算的指标泵送到 Druid(Lambda 架构)
- 最终用户报告/仪表板的 UI
- Nagios(或类似的)用于警报
- 指标聚合框架,通过堆栈中的每一层跟踪事件
根据我的经验,最好从相当成熟的工具开始并端到端进行 POC,然后再看看其他可以使用的工具。例如,随着您的管道开始成熟,您甚至可以拥有一个异步摄取 API(用 scala/akka 编写)、用于进行内联事件转换的 Kafka 流、用于实时和批处理作业的 Flink 等。
也许你可以看看 EDX 上的 spark 课程,他们使用带有 spark 的点击流示例进行分析和机器学习。