我正在用 Ruby 编写一个简单的网络爬虫,我需要获取href
页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么,因为某些页面可能无效,但我仍然希望能够解析它们。
是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析,或者是最好的方法只是用正则表达式手动完成?
是否可以在非 XHTML 页面上使用 XPath?
我正在用 Ruby 编写一个简单的网络爬虫,我需要获取href
页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么,因为某些页面可能无效,但我仍然希望能够解析它们。
是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析,或者是最好的方法只是用正则表达式手动完成?
是否可以在非 XHTML 页面上使用 XPath?