c# - 内置正则表达式类或解析器。如何从 html 文件中提取标签之间的文本？

Question

我有 html 文件，其中包含我的 c#.net 应用程序中的表格内容和其他信息。

我只想解析一些列的表格内容。那么我应该在.net中使用html解析器还是Regex的Replace方法？

如果我使用解析器，那么如何使用解析器？解析器会提取标签之间的信息吗？如果是，那么如何使用？如果可能，请显示该示例，因为我是解析器的新手。

如果我使用Regex类的Replace方法，那么在该方法中如何传递我想要提取信息的文件名？

编辑：我想从 html 文件中的表中提取信息。为此，我该如何使用 html 敏捷解析器？我应该编写什么类型的代码来使用该解析器？

score 4 · Accepted Answer

您刚刚问了一个几乎相同的问题并将其删除。这是我之前给出的答案：

试试HTML 敏捷包。

这是一个例子：

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

关于您关于正则表达式的额外问题：不要使用正则表达式解析 HTML。这不是一个强大的解决方案。上面的库可以做得更好。

score 1 · Accepted Answer

1

HtmlAgilityPack ....

下一次 - 搜索之前的答案。这肯定是重复的。

小教程。

于 2010-03-03T10:19:56.983 回答

c# - 内置正则表达式类或解析器。如何从 html 文件中提取标签之间的文本？

2 回答 2

Related

Reference