我们可以通过爬取网站内容以编程方式确定网站的组成部分吗?
我知道这似乎有点不可能,但我认为代码中的任何事情都是可能的。我正在尝试集思广益,如果我已经爬取了网站的所有数据,我可以根据这些想法确定网站的各个组件!
我有兴趣确定组件,例如,在电子商务网站的情况下,我想确定或识别:1.登录网址 2.注册网址 3.仪表板网址 4.添加订单网址 5.购物车网址 6 . 注销网址等
我们可能拥有的信息可以是:1. 会话、Cookie、元数据,2. 反向链接(内部和外部)3. 页面中的表单、页面中的字段等
任何想法或指示都会非常有帮助。