我们正在将一个电子商务网站迁移到一个新平台,因为他们所有的页面都是静态的 html,并且他们的数据库中没有他们所有的产品信息,我们必须从他们当前的网站上抓取产品描述。
这是其中一个页面: http: //www.cabinplace.com/accrugsbathblackbear.htm
最好的方法是把描述变成一个字符串?我应该使用 html 敏捷包吗?如果是这样,该怎么做?因为我一般是 html 敏捷包和 xhtml 的新手。
谢谢
我们正在将一个电子商务网站迁移到一个新平台,因为他们所有的页面都是静态的 html,并且他们的数据库中没有他们所有的产品信息,我们必须从他们当前的网站上抓取产品描述。
这是其中一个页面: http: //www.cabinplace.com/accrugsbathblackbear.htm
最好的方法是把描述变成一个字符串?我应该使用 html 敏捷包吗?如果是这样,该怎么做?因为我一般是 html 敏捷包和 xhtml 的新手。
谢谢
HTML Agility Pack 是用于此类工作的一个很好的库。
您没有说明所有内容是否都是这种结构,也没有说明您是否已经从 HTML 文件中获得了您发布的那种片段,因此很难提供进一步的建议。
一般来说,如果所有页面的结构都相似,我会使用 XPath 表达式来提取段落并从每个页面中选择innerHtml
或。innerText
类似于以下内容:
var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;
还,
如果您需要一个好的工具来测试或查找 HAP 的 Xpath,您可以使用这个工具: HTML-Agility-xpath-finder。它是使用相同的库制作的,因此如果您在此工具中找到 xpath,您就可以安全地在您的代码中使用它。