我有一个大的 URL 文本文件(> 100 万个 URL)。URL 代表跨多个不同域的产品页面。
我正在尝试从每个 URL 中解析出 SKU 和产品名称,例如:
- www.amazon.com/totes-Mens-Mike-Duck-Boot/dp/B01HQR3ODE/
- 手提包-男装-Mike-Duck-Boot
- B01HQR3ODE
- www.bestbuy.com/site/apple-airpods-white/5577872.p?skuId=5577872
- 苹果-airpods-白
- 5577872
我已经找到了用于解析列表中所有域的 URL 的两个组成部分(产品名称和 SKU)的单个正则表达式模式。这是近100种不同的模式。
虽然我已经弄清楚如何一次测试这个 URL/模式,但我无法弄清楚如何构建一个脚本,该脚本将在我的整个列表中读取,然后根据相关的正则表达式遍历并解析每一行图案。任何建议如何最好地解决这个问题?
如果我的输入是一列(URL),我想要的输出是 4 列(URL、域、产品名称、SKU)。