artificial-intelligence - 我们可以通过爬取网站内容以编程方式确定网站的组成部分吗？

Question

我们可以通过爬取网站内容以编程方式确定网站的组成部分吗？

我知道这似乎有点不可能，但我认为代码中的任何事情都是可能的。我正在尝试集思广益，如果我已经爬取了网站的所有数据，我可以根据这些想法确定网站的各个组件！

我有兴趣确定组件，例如，在电子商务网站的情况下，我想确定或识别：1.登录网址 2.注册网址 3.仪表板网址 4.添加订单网址 5.购物车网址 6 . 注销网址等

我们可能拥有的信息可以是：1. 会话、Cookie、元数据，2. 反向链接（内部和外部）3. 页面中的表单、页面中的字段等

任何想法或指示都会非常有帮助。

score 1 · Accepted Answer

您可以通过爬取域来获取原始 HTML 结果。对你的 URL 获取问题：是的，你可以通过系统根据 URL 和 HTML 元素确定登录、注册等 URL，可以通过一些实验来设计。

从网上商店爬取礼物的图片，价格等，这是可行的。我们给出了相对点；例如对于价格，如果文本包含“价格”，则获得 2 分，如果包含“$”或“€”，则获得 3 分等。我试着说您需要对数据进行实验。据我所知，您可以获得表单、Javascript 行等，并且也可以对它们进行试验。

如果您将使用 java，我建议使用Crawler4j 。Apache Nutch也很好，您可以从我的个人资料中的问题中获得有关“使用 Nutch 保存原始 html”的信息，但这是一个非常大的项目，我认为对于您的情况而言，处理所有这些东西不值得。

1 回答 1