我试图找出一个关于 sqlite 的查询来解决我的问题并在我的老板眼中赦免我的罪过,所以......
我有一个有 70 000 000 行的表
表中的一列是域(称为域),另一列称为 sourceurl(它是完整的 url 字符串,其中列域是 url 的域)
在大多数情况下,源 URL 是唯一的,而域不是,您可以拥有来自同一域的多个源 URL。
同一个表还包含其他列,这些列是标志,例如重定向、框架、提及、nofollow、alttext
我需要的是执行以下操作的查询:
忽略结果数据中任何为空的标志,我想对所有剩余的行进行分组,但随后最多只能从每个域中选择 10 个。
所以在一天结束时,我需要来自每个域的 10 个示例 url,并且这些示例 url 需要排除不为空的标志。