问题标签 [hyperloglog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
67 浏览

deserialization - 如何解析从 Presto 返回的 P4HYPERLOGLOG?

我正在尝试使用 Presto 的 HyperLogLog 的输出。我已经从 Airflow 的 Dense(v1 和 v2)实现中克隆了序列化/反序列化过程。此外,我的测试具有与原始 Java 代码相同的输入。

我遇到的问题是查询的输出对于查询如下所示SELECT CAST(EMPTY_APPROX_SET() as P4HYPERLOGLOG)

AwwAAAAAAAA ...(更长)但它应该以 4 以下的字节开始,指示要使用的版本。当然其余的字符串也和我找到的代码不一致。

这是我查看的文件的链接:https ://github.com/airlift/airlift/blob/418b0adea11560b81330bf750f4b42a173848d97/stats/src/main/java/io/airlift/stats/cardinality/DenseHll.java

它可能与输出的编码有关吗?或者任何人都可以告诉我在哪里对序列化进行了转换?

欢迎任何帮助,谢谢!

0 投票
1 回答
88 浏览

django - Django HyperLogLog (HLL) Postgres 字段的累计和

我使用Django包使用HyperLogLog (hll) 字段来表示唯一用户。django-pg-hll我想做的是在特定时间段内获得唯一用户的累计总数,但我在这样做时遇到了麻烦。

给定一个模型,如:

HllField我可以像这样得到每天的累积值:

但是,当我尝试cardinality像这样获得(实际数字)时:

出现以下错误:

这很奇怪,因为Cardinality它被定义为聚合函数。我不确定是否有办法解决这个问题,我想可以在原始 sql 中做到这一点,但我没有取得太大进展。

非常感谢 Django ORM 或原始 SQL 中的解决方案。

0 投票
2 回答
292 浏览

algorithm - 使用 Redis HyperLogLog 计算每页过去 60 分钟内的唯一用户数

我正在设计一种算法来计算一组页面上的唯一用户,基于 60 分钟的滑动比例

因此,它需要找到访问特定页面的唯一 IP(或令牌),并在过去 60 分钟内汇总这些命中

我需要它在规模上非常快(主要是写作,但阅读是一种奖励)。我们每页可以有 10,000 个用户乘以 1000 个页面。

我的研究指向我将 Redis 与 HyperLogLog 一起使用

我是来自 Memcache 背景的 Redis 新手。任何人都可以给我任何指示吗?

谢谢

0 投票
1 回答
143 浏览

druid - Druid 默认不同逼近算法

有没有办法在 Druid 中使用 ThetaSketch 修改默认的 HLL 近似算法?因此,在查询 count distinct 时,druid 默认使用 ThetaSketch 而不是 HLL。

0 投票
1 回答
22 浏览

tinkerpop - Tinkerpop 的 Hyperloglog,.count() 近似值

对于 Tinkerpop 等图形数据库,是否有类似于 Hyperloglog 的解决方案。.count() 步骤在大型数据集上永远需要,但近似值就足够了

0 投票
1 回答
79 浏览

google-bigquery - Using HyperLogLog functions in BigQuery can you get different results from the same query on the same data?

My query looks like:

let's say I run this query 10000 times (on the same set of data), will I get 10000 identical results or a small percentage of times I might get slightly different outputs?

In the documentation I have not found explanations about this topic and I would like to understand this without having to run thousands times my query ;)

0 投票
1 回答
45 浏览

redis - 如何提高redis hyperloglog的准确性

我正在使用一个非常简单的 redis HLL 实现

PFADD 添加元素和 PFCOUNT (带有 PFMERGE 的东西)来获取计数

有没有办法通过增加分配的内存等来调整 redis HLL 的效率

0 投票
0 回答
34 浏览

google-bigquery - 我们如何在 Looker 中使用 BigQuery HLL (HyperLogLog) 函数

我有一个关于如何在 Looker 中使用 BigQuery HLL 函数的快速问题。

例如,有一个 BigQuery 表,其结构如下Sample BigQuery Table

  1. 在查看器中,我是否需要将此字段响应者_hll 定义为维度或度量?
  2. 如果我将其用作度量,如何在不同的分组级别(例如,仅限国家/地区)提取此 HLL 字段的值并在仪表板中使用它而不失去其意义?
  3. 如果我把它作为一个维度引入,我仍然希望能够在不同的级别显示这个 HLL 字段的提取吗?Looker 将如何理解分组?

最好的问候, 山姆

0 投票
1 回答
32 浏览

java - 我们有没有办法检查一个元素是否已经存在于 Java 的 HyperLogLog 中

我有一个用例,我需要检查 Hyperloglog 中是否已经存在元素,如果不存在,我需要进行 hbase 调用。我们在 JAVA 中是否有任何方法来检查 HyperLogLog 中是否已存在元素

0 投票
1 回答
32 浏览

redis - Redis HyperLogLog - 错误太多

场景真的很简单。我正在向 HLL 添加 50 个元素(每次都不同)。通常在第三次,我得到一个错误的 PFCOUNT(151 而不是 150)。我知道 HLL 的错误率很低,但很容易得到误报吗?这个错误可以处理吗?

提前致谢

这是日志。

127.0.0.1:6379> PFADD test DaG4yPCb vrTDeJde SCcK4rvG K0UJPxeT s1RtvWyf EpkUaxhY y4ot0BQW vt13T2eS 5rFe0TKj yXm25gXb 4nnw8YYy Fnqdb4C6 rwuPLUyC W9uS0az7 koOtrENo hIjAa00k eT3VvI7Q zQVhYnYY 1Cshhbbk 8q3B82gH NWlnW5QH fbNYBXoy 4ti95TeI TiUyXs0W TAepHjdd CK26UGuC ESt9opXO ihYIo1L9 0XqFKx8x coh31ZxE 01G7eCjb wJZYByUo ZHfJIKoQ tFGPsdgZ 19DUQvNX 20QtyIVq Xjx4wT9z nJazaXtH cHEqmQjZ hz8j0uhT hpeygfWk hWBf44rU iUJbsPSY nIYDiV80 FgaEU3pI 7EEkDGY6 tPF0KHFM twVbY3wR xFpEg4jP 4JEW0pue 127.0.0.1:6379> PFCOUNT 测试(整数)50

127.0.0.1:6379> PFADD test elapxije pbjtcvbg pjoiaarc pogpnjqd ujzfiuyu kykxhqpl hnkwmwpq gljpsnwu rlnflrdb wexqthqe hwbcgbvt yjdddtpo lnkqcoaz tcjgnxme aiflckyh rfsmwzgw eooownar pkvhdwae tywuoxgv mojqkmqd gepsxhqj cbgrmzih jkormrfk irasppno mmealsye fdumtspr anisssut tuqlufyr coqebpyn zijsoauj akvcvkda jruskmma kalinqpr lsazgswh ozyajcpm edvodqnt befvtsbx bcaurnjh psgdgval pyktekgo kucfjnov xruaulrl rrwqzjac ppbbhdhz iohaeoiq fbztqesn zsfnxzsa masqfqjo fsybqced xzfdhtzv(整数)1 127.0.0.1:6379> PFCOUNT 测试(整数)100

127.0.0.1:6379> PFADD test hukqyega olgswnll ufzjkscd oygfsgdu bttlwivr xrvtjsfc criuaabz idxilrvd kitvpuzb ehwrvcip ljthitya clgciaex bagxomaq ziszyehx uuhytedx xycrfcgf nmbnxkav ylxxyyrp rfwniodp vezvqefz gomrekbf tirdnpbp fpbokjjz dwppiomo zgypqxyh kavukjeb wsomngmh oawosnvf tinruzjc bbfqchbn airifskr dqcaznzt vnpfejep jmdlwbek eubhstbo iamgnktp gfojfegy hvmbszlu poauswtc tdgozdfy cxdsprqo pjsuxult nctztxwb fbayirlw dcitezyn zufryoro tisxdwtn mmgztjie vykdkvwm dqogmhnm(整数)1 127.0.0.1:6379> PFCOUNT 测试(整数)151