-1

我们可以通过爬取网站内容以编程方式确定网站的组成部分吗?

我知道这似乎有点不可能,但我认为代码中的任何事情都是可能的。我正在尝试集思广益,如果我已经爬取了网站的所有数据,我可以根据这些想法确定网站的各个组件!

我有兴趣确定组件,例如,在电子商务网站的情况下,我想确定或识别:1.登录网址 2.注册网址 3.仪表板网址 4.添加订单网址 5.购物车网址 6 . 注销网址等

我们可能拥有的信息可以是:1. 会话、Cookie、元数据,2. 反向链接(内部和外部)3. 页面中的表单、页面中的字段等

任何想法或指示都会非常有帮助。

4

1 回答 1

1

您可以通过爬取域来获取原始 HTML 结果。对你的 URL 获取问题:是的,你可以通过系统根据 URL 和 HTML 元素确定登录、注册等 URL,可以通过一些实验来设计。

从网上商店爬取礼物的图片,价格等,这是可行的。我们给出了相对点;例如对于价格,如果文本包含“价格”,则获得 2 分,如果包含“$”或“€”,则获得 3 分等。我试着说您需要对数据进行实验。据我所知,您可以获得表单、Javascript 行等,并且也可以对它们进行试验。

如果您将使用 java,我建议使用Crawler4j 。Apache Nutch也很好,您可以从我的个人资料中的问题中获得有关“使用 Nutch 保存原始 html”的信息,但这是一个非常大的项目,我认为对于您的情况而言,处理所有这些东西不值得。

于 2012-12-16T23:45:32.980 回答