8

我有一个系统,显示按三个字段之一排序的条目,最流行的今天、本周和本月。每次查看条目时,分数都会增加 1,从而改变顺序。

因此,如果条目 1 是新条目并且今天查看了 10 次,则其分数将为:

Today: 10
Week: 10
Month: 10

当前的解决方案

目前我只有 3 个字段与每个条目相关联,一个用于今天,另一个用于本周,另一个用于本月。每次查看条目时,所有三个分数都会增加 1。

在一天结束时,日分数重置为 0。在当前一周结束时,周分数设置为 0,在当前日历月结束时,月份分数设置为 0。

问题

尽管这很有效并且占用的空间很小,但它并不理想,原因有两个:

1)在当前周期(日、周、月)结束时,该值一次全部重置为 0,这意味着每天 00:00:00 排名全部重置,所有每日得分都设置为 0,周末和月底也是如此。在每月 1 日的 00:00:00,所有分数都设置为 0,失去所有现有排名数据。

2) 由于月底通常在一周内(周一至周日),因此在一周内重置月分数,导致周分数高于月分数。

可能的解决方案

我可以在每个月的每个小时使用滚动小时计数器,用于根据当前小时指数计算当天、周、月的分数。

Array size = 31 * 24 = 744 int16 values

因此,在 1 日凌晨 4 点,视图将在数小时内放置 [4]

hours[4]++

然后,统计计算器将使用今天作为最后 24 个值的总和,而本周分数将是最后 (24*7) 个值的总和。最后,本月将是最后 (24*31) 值的总和。

解决问题

解决方案 1 的主要问题是磁盘/内存要求。我已经从在当前解决方案中使用 3 个 32 位值变为使用 744 个 32 位值。即使我将它们更改为 in16 我仍然会在每个条目中使用更多的内存

Memory per Entry = 3 * 4 bytes = 12 bytes (Existing)
Memory per Entry = 744 * 2 = 1,488 bytes (possible solution)

有了这个解决方案,我每个条目的内存使用量增加了 12400%!

谁能建议另一种解决方案来解决我当前解决方案中的问题,但每个条目不使用 1.5k?

非常感谢!

4

3 回答 3

6

这实际上是一个常见的问题,即如何有效地对数据进行分组并保留所有必要的信息。

首先:您是否尝试过按照自己的方式进行操作?你真的缺乏存储空间吗?您的解决方案似乎合理。

我会怎么做

我假设您正在使用数据库来保存数据。

我会创建两个单独的表,一个用于统计hourly,一个用于daily统计。每篇文章在该数据库中恰好有 24 行,每小时一行。那将用于hourly统计。要更新特定行,您只需要知道小时 (0-23) 和 entry_id。UPDATE count=count+1 WHERE hour=11 AND entry_id = 18164;

entry_id foreign key | hour integer | count integer
---------------------+--------------+--------------
1                    | 0            | 123
1                    | 2            | 1712
...

当前的每日统计数据将在午夜左右(或应用程序执行最少的时间)计算或按需求和。无论哪种方式,每天一次,必须对所有每小时数据进行总和,并且必须将总和插入到daily统计表中。

entry_id foreign key | day date   | count integer
---------------------+------------+--------------
1                    | 2013-07-03 | 54197
1                    | 2013-07-04 | 66123
...

应删除超过 31 (30/29/28) 天的每个条目。或者不,如果你想要总数或年度统计数据

好处

  • 您保留的数据少于完整的每小时统计数据:24+31
  • 如果在 entry_id 和小时上建立索引,每小时表上的总和应该很快
  • 使用的内存少于您的解决方案

缺点

  • 每日更新统计数据所需的额外脚本/触发器/作业
  • 实施它比在您的解决方案中需要更多的工作
于 2013-07-04T09:31:03.150 回答
2

一个简单的解决方案是

Use an array of 31.
Today - the last value
This Week score would be the sum of the last 7 values.
This Month would be the sum of the last 31 values.

At the end of each day, shift the whole array values by 1 to accommodate new value.

关于你的评论,

Use another array of size 24 to store hours visit count.
Today - Sum of all elements of Array2
This Week score would be the sum of the last 7 values of Array1.
This Month would be the Sum of all elements of Array1.

At the end of each day, shift the whole array values of Array1 by 1
to accommodate new value. Last day visit count = Sum of all elements of Array2
于 2013-07-04T09:23:18.067 回答
2

也许某种衰减可能会有所帮助。Today, Yesterday, ThisWeek, LastWeek, ThisMonth,需要 6 个变量LastMonth

然后最终评级(例如每日)可以计算为:Today + Yesterday * attenuation( current_time - start_of_the_day )

衰减类似于1 / (1 + k * time),哪里k可以调整,具体取决于您希望最后几天评级缩小的速度。

更新:考虑到新条目一天被浏览了 123 次。让我们以秒为单位测量时间,以获得一些数字。23:59 时,etrys 的评分为123 + 0 * 1 / (1 + k * 86340)^2 = 100.

在午夜Today计数器变为Yesterday

0 + 123 * 1 / ( 1 + k * 0)^2 = 123

假设到中午一个条目获得了 89 更多的浏览量。

89 + 123 * 1 / ( 1 + k * 43200 )^2 = ?

嗯,现在是选择的好时机k。如果我们希望旧视图在 12 小时内褪色四次,那k就是1/43200. 如果我们想淡出一百次 - 9/43200。在这种情况下:

89 + 123 * 1 / ( 1 + 9 )^2 = 90.23

然后到 23:59。让条目获得 60 更多的观看次数

149 + 123 * 1 / ( 1 + (9/43200) * 86340 )^2 ~= 149.002

因此,昨天的观看次数在 24 小时内几乎完全失去了对评分的影响。当然,您通常可以使用k衰减公式来最好地满足您的需求。这只是一个例子。

于 2013-07-04T09:35:45.763 回答