我有一个正在开发的 IRC 机器人,我希望它具有的功能之一是获取一个人发布的任何链接并使用 BeautifulSoup 来解析该页面。现在,我让机器人工作,获取人们发布的消息等。但是,我将如何从 IRC 消息中提取链接?假设有人这样说:
人:看看http://www.site.com,很酷!
我如何取出链接并将其分配给一个变量以供以后使用,而不提取消息的其他部分?
我认为这与正则表达式有关,但我不确定。
我有一个正在开发的 IRC 机器人,我希望它具有的功能之一是获取一个人发布的任何链接并使用 BeautifulSoup 来解析该页面。现在,我让机器人工作,获取人们发布的消息等。但是,我将如何从 IRC 消息中提取链接?假设有人这样说:
人:看看http://www.site.com,很酷!
我如何取出链接并将其分配给一个变量以供以后使用,而不提取消息的其他部分?
我认为这与正则表达式有关,但我不确定。
您确实需要使用正则表达式。
有一篇不错的文章,其中包含用于匹配 URL 的正则表达式,并在一定程度上描述了它在daring fireball中所做的事情。
你可以在这里查看 Django 是如何做到的。
最后,Python 的正则表达式文档也可能有用。
你正在完成这件事的确切轨道上。你用问题的最后一句话给了自己答案。您将使用带有捕获组的正则表达式来获取 url,然后您可以从那里解析/抓取用户在 irc 中所说的页面。
这个网站可能对你有用:http ://www.regular-expressions.info/