我已经使用 3 种语言进行 Web Scraping - Ruby、PHP 和 Python,老实说,它们似乎都不适合这项任务。
Ruby 具有出色的机械化和 XML 解析库,但对电子表格的支持很差。
PHP 具有出色的电子表格和 HTML 解析库,但它没有 WWW:Mechanize 的等价物。
Python 有一个非常糟糕的机械化库。我有很多问题,但仍然无法解决。它的电子表格库也或多或少不错,因为它无法创建 XLSX 文件。
有什么适合网络抓取的东西吗?
PS:我在windows平台上工作。