问题标签 [clickstream]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
458 浏览

r - 如何从点击流数据创建用户路径

我有一些点击流数据,我想以特定方式进行归因分析,但我需要为转换和不转换的用户输入特定格式。

代表数据:

然后设置类:

我想获得购买的所有用户访问路径,或不导致购买的总路径。

新列的格式path例如:Facebook > Facebook > Facebook > Email > Email对于我知道如何使用的用户 2001 mutate(path = paste0(source, collapse = " > "))

并发症是:

  • 大多数会话 ID 未设置,这意味着它们丢失了
  • 一些用户可能会多次转换
  • 一些用户可能会转换并返回但不会转换

每行将是:

  • 按用户 ID 进行的转换 - 大多数转换的用户只转换一次,但有些可能会转换多次,在这种情况下,每次转换都会有一行。该path列将反映转化过程 - 对于用户的第二次或后续转化,只会显示上一次转化之后的路径。
  • 或未转换的用户旅程,其总路径采用上述格式

对于上述 reprex,结果如下所示:

... 在哪里:

  • 用户 2001 转换了两次,路径分别表示;
  • 用户 2002 已转换然后稍后返回但未转换,因此已转换和未转换的路径表示为单独的行。
  • 用户 2003 从未转换,因此表示此路径。
0 投票
0 回答
105 浏览

python - 如何找到从给定数据集中的序列中获得的子序列的概率?

我有一个链接序列的数据集(CSV 文件),其中包含每个序列的订单状态。在 prefixSpan 算法的帮助下,我得到了带有计数的子序列(如此所述)。但我也想找到每个子序列导致下订单 = 1 的概率。假设链接为abcd它们在数据框中的顺序和订单状态如下:

如果我在 prefixSpan 算法的帮助下设置最小 Support =4,我得到的子序列

我应该在上面链接中提到的prefixSpan算法代码中进行哪些更改以获得概率,如下所示:

用于计算子序列概率的过程是:

添加存在子序列的所有序列的已下订单状态,并将其除以存在子序列的序列数,例如:

0 投票
2 回答
33 浏览

r - 从 MarkovChain 对象的图中替换 x 轴标签

这是一些生成 0 阶马尔可夫链图的代码。我想用显示今年前六个月的 45 度旋转标签替换绘图的 x 轴标签(c、d、h、i、o、p)。但是,xaxt="n"plot通话中使用似乎不起作用。此代码只是覆盖现有标签,而不是替换它们。如何用我想要的标签替换标签?

带有错误 x 轴标签的点击流图

0 投票
1 回答
104 浏览

r - 从数据框中获取点击流序列

我有一个.csv这种格式的点击流数据文件:

我正在尝试clickstream在 R 中使用包进行分析。这个包需要我们把上面的数据转换成这种格式:

其中第一列是会话 ID,每个会话的列数可能会有所不同,具体取决于网站用户采取的步骤数。如何将初始数据转换为上述格式(excel 或 R)?

另外,如果有其他方法可以在 R 中分析点击流数据而无需进行此类数据操作,请告诉我。

0 投票
1 回答
54 浏览

sql - 给定点击流拆分时间间隔

我得到一个点击流,其中包含字段 user_id 、 site_id 、 datetime - 点击的时间戳 会话在 30 分钟的间隔内计算所有点击

如何使用以下输出进行 SQL 查询

0 投票
0 回答
33 浏览

api - 打开以读取 azure 中的原始点击流 blob 存储数据的最佳方式或工具是什么

我有大约 800mb 的平均文件大小的点击流 blob 存储,当我打开文件时,它默认为文本文件。我如何打开和读取可能是 json 格式或列格式的数据。我还想了解我是否可以构建一个 API 来使用该数据。我最近构建了一个 azure 函数应用程序 http 触发器,但文件太大而无法打开,并且函数超时。所以对这两个的任何建议将不胜感激

谢谢

0 投票
1 回答
106 浏览

sql - Oracle SQL:根据子字符串和前一个(滞后)行计算连续站点访问

使用 Oracle SQL,我正在尝试计算对网站的总唯一访问次数。我用来编写查询的表没有时间戳,其中包括分钟和秒,只是 DDMMYY,表中的每一行都代表客户在页面上的点击。该表每小时指定一个新的“会话”,无论这是否真的反映了客户 POV 的新访问。我必须做的是使用非连续会话作为唯一访问的代理。因此,如果访问之间有一个小时的休息时间,则之前的连续分组是一次访问。我将访问定义为客户 ID + 会话日 + 会话小时的唯一组合。如果客户+天组合中有连续的会话时间,我将其计为一个会话。HOUR 字段包含将日期与小时连接起来的字符串值。

访问次数实际上是这样的:

客户1007589445有

2017 年 10 月 21 日访问 3 次 - 2017 年 11 月 1 日访问 1 次 - 2018 年 1 月 1 日访问 4 次

总访问量:8

下面是我到目前为止需要修改以满足上述标准的 sql 代码。

0 投票
1 回答
330 浏览

android - 通过firebase分析点击流数据

让我介绍一下我的情况,看看你认为最好的解决方案是什么。

问题:试图分析点击流数据。

当前情况:目前我们有数据流入 google firebase 以分析应用活动。它可以很好地测量 MUA 和一些基本的事件分析。但是,我很想深入研究并能够自己查询数据。例如,我们有一个事件设置来显示用户何时查看停车场的费率结构。我有一个事件告诉我用户启动会话然后单击它的频率......但没有任何东西告诉我他们在每个位置执行此操作的频率。

我已经开始使用 bigquery 来尝试分析它,但它有点笨拙。部分原因是我还在习惯它。关于做到这一点的最佳方法还有其他想法吗?

0 投票
1 回答
447 浏览

amazon-web-services - 使用 AWS Kinesis Firehose 的网站点击流 + 客户 360

我们正在尝试在 AWS 上实现我们电子商务的点击流。点击流将捕获“匿名”用户所做的所有操作。匿名用户通过 UUID 进行跟踪,该 UUID 在他们第一次访问期间生成,存储在 cookie 中。我们在这里使用 AWS 示例来建议一个解决方案架构,如下图所示:

在此处输入图像描述

现在有2个问题:

  1. 电子商务中不同的页面有不同的点击流数据。例如,在 Item view page 上,我们也想发送 Item 相关信息,例如 itemId。或者在结帐页面上,我们希望很少有与点击流数据相关的订单相关信息。我们是否应该为不同的页面设置单独的 Firehose 传输流来支持自定义点击流数据?或者我们应该将通用点击流记录(某些属性可能为空值)发送到 FH 传输流?

  2. 在某些时候,我们的匿名用户会被识别(例如,他们登录,所以我们知道他们的 User_ID)所以我们希望链接 {UUID 和 User_ID} 以便能够获得客户 360 度视图。我们是否应该考虑使用单独的流 + 单独的 S3 存储桶来跟踪 UUID+ User_ID 映射?那么我们是否应该使用 Athena 来显示客户 360 的汇总报告?我们是否应该聚合数据并在 Redshift 中创建客户维度?对此有什么好的解决方案?

问候,丽娜

[更新]:下图是该问题的可接受解决方案吗? 在此处输入图像描述

0 投票
0 回答
33 浏览

google-analytics - 如何在谷歌分析中导入点击流数据

尝试添加时间戳、客户端 ID 等自定义维度,但无法找出链接这些自定义维度的正确过程,以便点击流数据开始在我的 GA 仪表板中流动。请帮忙