c# - 查询网站并从中检索公共数据

Question

我是 C# 编程的新手。我想从你们那里得到一些帮助（如果可能的话）。我有一个网站（它是一个购物网站），其中包含以下数据：产品、价格、描述……等。我想做的是：由于该网站具有搜索功能，因此我想通过查询搜索链接从中获取数据，并且仅获取重要数据（产品ID，名称，价格和描述）。当我执行搜索时，我会得到很多页面，每次按下一步我都会得到带有额外产品列表的新页面。我怎样才能简单地使这些任务自动化？

我在互联网上进行了很多搜索，发现我需要使用webclient()正则表达式，并且我认为可能需要对页面内容和搜索结果页面进行循环。你们觉得怎么样？

网站示例。

我会感谢你的任何努力。

score 0 · Accepted Answer

您所描述的称为刮擦。

您需要的是使用 HtmlAgilityPack 之类的东西来获取网站。然后，您可以通过使用 DOM 并阅读它们的内部文本来找到您感兴趣的节点。

整个过程相当复杂，但至少我已经把你送到了正确的方向。在大多数情况下，搜索网址往往具有相同的格式。

例如在您的链接中

http://cdon.se/hemelektronik/advanced-search?manufacturer-id=&title=.&title-matchtype=1&genre-id=&page-size=15&sort-order=142&page=2

您可以将“页面”更改为其他内容，并且可以通过这种方式浏览所有页面。

补充：也不要尝试使用正则表达式来解析 html。它让一个特定的人发疯......

RegEx 匹配打开的标签，XHTML 自包含标签除外

c# - 查询网站并从中检索公共数据

1 回答 1

Related

Reference