java - 如何读取网页的某些部分并将其文本存储在 Excel 文件中

Question

我通过网站复印机软件下载了一些网站。我想从所有页面中提取一些信息。

假设有很多产品页面，我只想从所有页面收集产品信息并将其存储在 excel 文件中。

我想知道有什么可能的方法来做到这一点。我的朋友告诉我，他可以编写一些脚本并实现它，但我不明白任何脚本如何解决这整个目的。

是否有任何免费软件或任何代码可以完成这项工作。我对java非常了解，如果我可以通过编写代码通过java实现它，那么请提供一些指导。

score 1 · Accepted Answer

您可能不想使用 Java，而是使用 JavaScript，因为产品页面是网页，因此您可能更喜欢浏览器原生语言。如果是我，我会这样处理：

1 - 编写一个加载所有页面的主 JS 脚本，一次一个。

2 - 在每一页中，选择该产品信息（可能带有 $('#productID') 等）

3 - 将它们转换为 JSON 格式并使用一些第三方库导出为 CSV（或者自己编写一些代码）。一个此类库的示例：http ://www.zachhunter.com/2011/06/json-to-csv/

score 0 · Accepted Answer

看看JSoup，一个用于 HTML 文档的 Java 库。

您会在他们的网站上找到大量文档。

您将需要了解 CSS 选择器以从文档中选择特定元素，示例参见http://jsoup.org/cookbook/extracting-data/selector-syntax

然后将收集到的数据以逗号分隔值的形式写入可以加载到 Excel 中的文本文件中。

2 回答 2