问题:
无法完全理解 Goutte 网络爬虫。
请求:
有人可以帮助我理解或提供代码来帮助我更好地理解如何使用 Goutte 网络爬虫吗?我已经阅读了 README.md。我正在寻找比提供的信息更多的信息,例如 Goutte 中可用的选项以及如何编写这些选项,或者当您查看表单时,您是否搜索表单的 name= 或 id=?
试图被抓取的网页布局:
第 1 步:
网页有一个表单,有一个单选按钮来选择要填写的表单类型(即名称或许可证)。它默认为带有名字和姓氏文本框的名称以及状态下拉菜单选择列表。如果您选择 Radio,则 jQuery 或 JavaScript 会使 First Name 和 Last Name 文本框消失,并出现 License 文本框。
第 2 步:
成功提交表单后,它会将您带到一个包含多个链接的页面。我们可以进入其中两个来获取我们需要的信息。
第 3 步:
成功单击链接后,我们希望第三页包含我们正在寻找的数据,并且我们希望将该数据存储到 php 变量中。
提交错误信息:
如果提交错误信息,则 jQuery/Javascript 将返回“未找到记录”消息。在与提交相同的页面上。
注意:
首选方法是选择许可证单选按钮,填写许可证号,选择州,然后提交表格。我已经阅读了大量关于 Goutte 的帖子和博客以及其他项目,但我无处可找到 Goutte 可用的选项、如何找到此信息或如何使用此信息(如果确实存在)。