我有一个公司名称列表,并且我有一个 url 提及公司名称的列表。
最终目标是查看 url,并找出 url 上的公司中有多少在我的列表中。
示例 URL:http ://www.dmx.com/about/our-clients
每个 URL 的结构都不同,所以我没有一个很好的方法来进行正则表达式搜索并为每个公司名称创建单独的字符串。
我想构建一个 for 循环来从 URL 的全部内容列表中搜索每个公司。但似乎 Levenshtein 更适合两个较小的字符串,而不是一个短字符串和一大段文本。
这个初学者应该在哪里寻找?