0

我在 Azure 中有两个表,其中一个是 URL 列表,另一个只有域名。我希望能够检查 URLtable 中的 URL 是否“包含”来自 DomainName_table 的域名。不能使用“in”运算符,因为永远不会有完全匹配。 下面的虚拟表:

let DomainName_table= datatable (domainname: string)
        [
            "abc456",
            "gmail"
        ]
        |summarize domainlist = make_list(domainname);
 let URLtable= datatable (URL: string)
        [
            "abc456/.com/ffsfd/sdfsdfds",
            "gmail",//.com/sAFSfS"
            "gmddail.com"///sAFfsdfsfSfS"
        ];
          URLtable
          | where URL in (DomainName_table)

我还尝试拆分 URL 以提取域名:

let DomainName_table= datatable (domainname: string)
        [
            "abc456",
            "gmail"
        ]
        |summarize domainlist = make_list(domainname);
 let URLtable= datatable (URL: string)
        [
            "https://abc456.com/ffsfd/sdfsdfds",
            "https://gmail.com/sAFSfS"
            "https://gmddail.com/sAFfsdfsfSfS"
        ];
          URLtable
          |extend split_url = split(URL,"/",2)//| project split_url
  | where split_url in (DomainName_table) 

这也不是一个好方法,因为它也可以是“xyz.abc456.com”并且它不会返回匹配项。几乎总是返回 0,因为 URL 永远不可能完全匹配。

两者之间也没有可用于连接的公共列。 基本上是从另一个表的列中搜索一列的子字符串。

谁能建议我如何做到这一点?感谢您的 KQL-fu。

4

1 回答 1

1

有两种不同的方法可以解决这个问题:

方法 #1 - 如果 LookupDomains 的记录超过 1,000,000 条,此方法将起作用:

let Urls = datatable(url: string) [
    "happydomain.com",
    "a.happydomain.com",
    "b.happydomain.com",
    "angrydomain.com",
    "a.angrydomain.com",
    "q1.a.angrydomain.com",
    "q2.a.angrydomain.com",
    "b.angrydomain.com",
    "q1.b.angrydomain.com",
    "q2.b.angrydomain.com",
    "surpriseddomain.co.il",
    "a.surpriseddomain.co.il",
    "b.surpriseddomain.co.il",
    "q1.a.surpriseddomain.co.il",
    "q2.b.surpriseddomain.co.il",
];
let LookupDomains = datatable(domain: string) [
    "happydomain.com",
    "a.angrydomain.com",
    "q1.a.surpriseddomain.co.il"
];
Urls
| extend dl = split(url, ".")
| extend dl1 = tostring(dl[-1])
| extend dl2 = strcat(dl[-2], ".", dl1)
| extend dl3 = strcat(dl[-3], ".", dl2)
| extend dl4 = strcat(dl[-4], ".", dl3)
| extend dl5 = strcat(dl[-5], ".", dl4)
| extend LoopupDomain =
        case(dl1 in (LookupDomains), dl1,
             dl2 in (LookupDomains), dl2,
             dl3 in (LookupDomains), dl3,
             dl4 in (LookupDomains), dl4,
             dl5 in (LookupDomains), dl5,
             "")
| where isnotempty(LoopupDomain)
| project-away dl*

输出:

网址 循环域
快乐域名.com 快乐域名.com
a.happydomain.com 快乐域名.com
b.happydomain.com 快乐域名.com
a.angrydomain.com a.angrydomain.com
q1.a.angrydomain.com a.angrydomain.com
q2.a.angrydomain.com a.angrydomain.com
q1.a.surpriseddomain.co.il q1.a.surpriseddomain.co.il

如果LookupDomains表有超过 1,000,000 条记录,则in上面的方法将不起作用,而必须使用下一种方法。

方法 #2 - 无论 LookupDomains 中的记录数量如何,这种方法都可以工作,但需要您做更多的工作:

首先,您需要在和表中添加dl2一个单独的列(这可以作为您的摄取流程的一部分,或使用更新策略来完成)。UrlsLookupDomains

然后你需要使用下面的查询而不是我上面写的查询:

LookupDomains
| join kind=inner Urls on dl2
| extend dl = split(url, ".")
| extend dl1 = tostring(dl[-1])
| extend dl3 = strcat(dl[-3], ".", dl2)
| extend dl4 = strcat(dl[-4], ".", dl3)
| extend dl5 = strcat(dl[-5], ".", dl4)
| where (dl1 == domain) or (dl2 == domain) or (dl3 == domain) or (dl4 == domain) or (dl5 == domain)
| project-away dl*
于 2021-03-22T14:55:24.120 回答