0

我有一个正在开发的 IRC 机器人,我希望它具有的功能之一是获取一个人发布的任何链接并使用 BeautifulSoup 来解析该页面。现在,我让机器人工作,获取人们发布的消息等。但是,我将如何从 IRC 消息中提取链接?假设有人这样说:

人:看看http://www.site.com,很酷!

我如何取出链接并将其分配给一个变量以供以后使用,而不提取消息的其他部分?

我认为这与正则表达式有关,但我不确定。

4

2 回答 2

1

您确实需要使用正则表达式。

有一篇不错的文章,其中包含用于匹配 URL 的正则表达式,并在一定程度上描述了它在daring fireball中所做的事情。

你可以在这里查看 Django 是如何做到的。

最后,Python 的正则表达式文档也可能有用。

于 2012-07-27T18:42:15.310 回答
0

你正在完成这件事的确切轨道上。你用问题的最后一句话给了自己答案。您将使用带有捕获组的正则表达式来获取 url,然后您可以从那里解析/抓取用户在 irc 中所说的页面。

这个网站可能对你有用:http ://www.regular-expressions.info/

于 2012-07-27T18:36:41.363 回答