c# - c# html敏捷包

Question

我们正在将一个电子商务网站迁移到一个新平台，因为他们所有的页面都是静态的 html，并且他们的数据库中没有他们所有的产品信息，我们必须从他们当前的网站上抓取产品描述。

最好的方法是把描述变成一个字符串？我应该使用 html 敏捷包吗？如果是这样，该怎么做？因为我一般是 html 敏捷包和 xhtml 的新手。

谢谢

score 1 · Accepted Answer

HTML Agility Pack 是用于此类工作的一个很好的库。

您没有说明所有内容是否都是这种结构，也没有说明您是否已经从 HTML 文件中获得了您发布的那种片段，因此很难提供进一步的建议。

一般来说，如果所有页面的结构都相似，我会使用 XPath 表达式来提取段落并从每个页面中选择innerHtml或。innerText

类似于以下内容：

var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;

score 0 · Accepted Answer

还，

如果您需要一个好的工具来测试或查找 HAP 的 Xpath，您可以使用这个工具： HTML-Agility-xpath-finder。它是使用相同的库制作的，因此如果您在此工具中找到 xpath，您就可以安全地在您的代码中使用它。

2 回答 2