3

我们正在将一个电子商务网站迁移到一个新平台,因为他们所有的页面都是静态的 html,并且他们的数据库中没有他们所有的产品信息,我们必须从他们当前的网站上抓取产品描述。

这是其中一个页面: http: //www.cabinplace.com/accrugsbathblackbear.htm

最好的方法是把描述变成一个字符串?我应该使用 html 敏捷包吗?如果是这样,该怎么做?因为我一般是 html 敏捷包和 xhtml 的新手。

谢谢

4

2 回答 2

1

HTML Agility Pack 是用于此类工作的一个很好的库。

您没有说明所有内容是否都是这种结构,也没有说明您是否已经从 HTML 文件中获得了您发布的那种片段,因此很难提供进一步的建议。

一般来说,如果所有页面的结构都相似,我会使用 XPath 表达式来提取段落并从每个页面中选择innerHtml或。innerText

类似于以下内容:

var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;
于 2011-05-26T18:58:53.243 回答
0

还,

如果您需要一个好的工具来测试或查找 HAP 的 Xpath,您可以使用这个工具: HTML-Agility-xpath-finder。它是使用相同的库制作的,因此如果您在此工具中找到 xpath,您就可以安全地在您的代码中使用它。

于 2019-11-07T08:29:28.983 回答