c# - 使用c#过滤抓取的数据

Question

我已成功从网站页面抓取数据。但它既包含 HTML 标记，也包含纯文本。我如何从这些抓取的数据中过滤掉不需要的数据（标签、脚本、一些不需要的文本等）。至少建议一些方法来做到这一点。

score 1 · Accepted Answer

您可以使用HTML Agility Pack 来解析 html 并删除任何不需要的镜头。

如何使用 HTML 敏捷包

score 1 · Accepted Answer

您可以从查看HTML Agility Pack开始。这应该允许您删除任何 HTML。

这是一个敏捷的 HTML 解析器，它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT（实际上你不必了解 XPATH 或 XSLT 就可以使用它，不用担心......）。它是一个 .NET 代码库，允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似，但用于 HTML 文档（或流）。

c# - 使用c#过滤抓取的数据

2 回答 2

Related

Reference