我是网络爬虫的新手,需要快速学习才能工作。我在抓取客户网页时遇到问题,因为我需要获取的内容唯一地嵌套在主页上的每条记录中(300 多次),子页面上的某些字段不在标签中,而且有点乱。获取以下信息的最佳逻辑是什么。(另外,如果有人知道任何更新的免费且值得研究的抓取工具,那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何通过每条记录进行访问它是子页面信息,并在移动到父页面的下一行之前抓取它。
问问题
308 次
我是网络爬虫的新手,需要快速学习才能工作。我在抓取客户网页时遇到问题,因为我需要获取的内容唯一地嵌套在主页上的每条记录中(300 多次),子页面上的某些字段不在标签中,而且有点乱。获取以下信息的最佳逻辑是什么。(另外,如果有人知道任何更新的免费且值得研究的抓取工具,那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何通过每条记录进行访问它是子页面信息,并在移动到父页面的下一行之前抓取它。