3

我制作了一个可以从特定网站提取一些特定信息的应用程序。为此,我使用了正则表达式,它给了我想要的输出。对于那个简单的爬虫,有没有比正则表达式更有效的过程或想法。

4

1 回答 1

2

如果您说它是一个简单的正则表达式来解决您的问题,那么没有其他更有效的解决方案。当涉及到爬虫时,替代方法是将整个 html 页面加载到内存中,在 DOM 文档中并使用 XPath 甚至 XQuery 进行搜索。但实际上,如果可以使用正则表达式轻松提取信息,那么请不要打扰,特别是如果您不熟悉 XPath。

当您想要进行复杂的搜索时,XPath 的强大功能就派上用场了。对于这个任务,它比正则表达式更优雅(至少在 w3c 的意见中)。但是,如果您想要一个快速的解决方案,您已经找到了它,而且它在 RAM 方面也更有效。

于 2012-05-20T17:24:01.593 回答