Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
提交表单后,我需要抓取网站并从动态创建的页面中提取一些信息。
我需要抓取的信息主要来自这些网站上的数据库。
添加:
爬虫通常通过从一个超链接跳转到另一个来工作。所以这些大多是静态页面。抓取那些不是静态存在而是动态创建的页面呢?
从爬虫的角度来看,没有太大的区别。你仍然得到生成的 HTML。
唯一需要注意的是指向无限数量页面的链接,例如动态生成的日历并具有指向下一个/上一个月/年的链接。