0

我已成功从网站页面抓取数据。但它既包含 HTML 标记,也包含纯文本。我如何从这些抓取的数据中过滤掉不需要的数据(标签、脚本、一些不需要的文本等)。至少建议一些方法来做到这一点。

4

2 回答 2

1

您可以使用HTML Agility Pack 来解析 html 并删除任何不需要的镜头。

如何使用 HTML 敏捷包

于 2012-07-04T05:51:53.450 回答
1

您可以从查看HTML Agility Pack开始。这应该允许您删除任何 HTML。

这是一个敏捷的 HTML 解析器,它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT(实际上你不必了解 XPATH 或 XSLT 就可以使用它,不用担心......)。它是一个 .NET 代码库,允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似,但用于 HTML 文档(或流)。

于 2012-07-04T05:52:59.780 回答