2

我负责分析我公司网站的日志表的任务。此表包含给定会话的整个网站的用户点击路径。我的公司希望根据用户的“点击路径”了解/发现趋势。在此过程中,根据年龄/地理位置等确定采用特定“点击路径”的用户组。

从标题可以看出,我对 BI 及其功能完全陌生,所以我想知道:

  1. 我们的目标可以实现吗?
  2. 我该怎么做呢?

我目前正在在线阅读书籍以及我找到的其他电子书。所有迹象似乎都表明这可以通过序列聚类实现。尽管我目前还不清楚所涉及的确切实施和调整。因此,如果有人在这样的事业中有第一手经验,如果你能在这里分享,我会很棒。

干杯!

4

4 回答 4

2

您正在寻找的是所谓的关联规则挖掘。我对 BI 不是特别熟悉,但我建议你看看Weka,它包含Apriori 算法及其变体的几种实现。

于 2009-09-17T21:09:07.700 回答
2

这不会帮助您处理现有的日志文件...(但如果您搜索答案失败,它是一种替代方法)

谷歌分析是免费的,您可以设置几个自定义变量{年龄等}并查看流量的去向..(您将无法看到单个用户的行为..)不完全是您尝试做的时间,而是免费,可以制作成接近你想要的东西

如果您想要真正出色的分析,请查看Omniture(价格昂贵),但它在构建复杂网站报告方面是一流的。它被用于许多电子商务场景中,跟踪用户如何进入并与网站互动等等~

那里有很多网站分析,在“滚动”你自己之前,看看其中的一些,它们可能会帮助你专注于自己的目标。

于 2009-09-17T21:35:26.867 回答
0

似乎您可以使用神经网络来完成该任务。可能是感知器

我对神经网络有一些经验,但我不是专家。
我强烈推荐《编程集体智能:构建智能 Web 2.0 应用程序》一书。即使您不了解 Python,也请查看它。

于 2009-09-02T16:27:31.320 回答
0

首先从开源或商业网络分析软件包开始(谷歌),因为阅读网络服务器日志文件并非易事

有些允许将数据映射到其他表(您的用户表与年龄等),或者混合您自己的解决方案以将 Web 会话日志与其他数据映射

除此之外,普通的 SQL 查询将解决您的分析问题,例如

select user.id 
 from user, log l1, log l2, log l3
 where user.id = l1.userid and l1.type = first step
  and user.id = l2.userid and l2.type = next step
  and user.id = l3.userid and l3.type = last step
  and l1.sessionid = l2.sessionid and l2.sessionid = l3.sessionid

将原始数据加载到 BI 框架中可能并不容易。将这样的查询结果加载到 BI 框架中会很有趣

根据您的 Web 应用程序,如果实际会话具有长时间运行的会话 ID 等,或者更改会话 ID,您可能无法识别它们。如果这是一个问题,您需要将您的 Web 分析应用到实际的 Web 服务器代码中,这样您就可以模拟长时间运行的状态并记录下来

于 2009-09-17T21:02:39.500 回答