-1

我通过网站复印机软件下载了一些网站。我想从所有页面中提取一些信息。

假设有很多产品页面,我只想从所有页面收集产品信息并将其存储在 excel 文件中。

我想知道有什么可能的方法来做到这一点。我的朋友告诉我,他可以编写一些脚本并实现它,但我不明白任何脚本如何解决这整个目的。

是否有任何免费软件或任何代码可以完成这项工作。我对java非常了解,如果我可以通过编写代码通过java实现它,那么请提供一些指导。

4

2 回答 2

1

您可能不想使用 Java,而是使用 JavaScript,因为产品页面是网页,因此您可能更喜欢浏览器原生语言。如果是我,我会这样处理:

1 - 编写一个加载所有页面的主 JS 脚本,一次一个。

2 - 在每一页中,选择该产品信息(可能带有 $('#productID') 等)

3 - 将它们转换为 JSON 格式并使用一些第三方库导出为 CSV(或者自己编写一些代码)。一个此类库的示例:http ://www.zachhunter.com/2011/06/json-to-csv/

于 2012-12-23T09:22:05.613 回答
0

看看JSoup,一个用于 HTML 文档的 Java 库。

您会在他们的网站上找到大量文档。

您将需要了解 CSS 选择器以从文档中选择特定元素,示例参见http://jsoup.org/cookbook/extracting-data/selector-syntax

然后将收集到的数据以逗号分隔值的形式写入可以加载到 Excel 中的文本文件中。

于 2012-12-23T09:37:43.063 回答