0

我是 C# 编程的新手。我想从你们那里得到一些帮助(如果可能的话)。我有一个网站(它是一个购物网站),其中包含以下数据:产品、价格、描述……等。我想做的是:由于该网站具有搜索功能,因此我想通过查询搜索链接从中获取数据,并且仅获取重要数据(产品ID,名称,价格和描述)。当我执行搜索时,我会得到很多页面,每次按下一步我都会得到带有额外产品列表的新页面。我怎样才能简单地使这些任务自动化?

我在互联网上进行了很多搜索,发现我需要使用webclient()正则表达式,并且我认为可能需要对页面内容和搜索结果页面进行循环。你们觉得怎么样?

网站示例。

我会感谢你的任何努力。

4

1 回答 1

0

您所描述的称为刮擦。

您需要的是使用 HtmlAgilityPack 之类的东西来获取网站。然后,您可以通过使用 DOM 并阅读它们的内部文本来找到您感兴趣的节点。

整个过程相当复杂,但至少我已经把你送到了正确的方向。在大多数情况下,搜索网址往往具有相同的格式。

例如在您的链接中

http://cdon.se/hemelektronik/advanced-search?manufacturer-id=&title=.&title-matchtype=1&genre-id=&page-size=15&sort-order=142&page=2

您可以将“页面”更改为其他内容,并且可以通过这种方式浏览所有页面。

补充:也不要尝试使用正则表达式来解析 html。它让一个特定的人发疯......

RegEx 匹配打开的标签,XHTML 自包含标签除外

于 2012-07-22T12:09:35.587 回答