1

我想从用户代理字符串中提取机器人名称及其版本。我尝试使用拆分功能。但是由于显示用户代理字符串的方式从一个爬虫到另一个爬虫不同,所以得到我预期输出的最佳方法是什么?(请考虑我需要一个通用解决方案)

输入(用户代理字符串)

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)
msnbot/2.0b (+http://search.msn.com/msnbot.htm)

预期产出

Googlebot/2.1
AhrefsBot/4.0
msnbot/2.0b
4

1 回答 1

3

尝试以下操作:

import re

lines = [
    'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
    'Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)',
    'msnbot/2.0b (+http://search.msn.com/msnbot.htm)'
]

botname = re.compile('\w+bot/[.\w]+', flags=re.IGNORECASE)
for line in lines:
    matched = botname.search(line)
    if matched:
        print(matched.group())

印刷

Googlebot/2.1
AhrefsBot/4.0
msnbot/2.0b

假设 bot 代理名称包含bot/.

于 2013-09-03T08:50:19.447 回答