1

我正在阅读 C# 中的网站并将内容作为字符串获取....有些网站没有格式良好的 html 结构。

我尝试过HtmlAgilityPack和其他一些人,但他们需要格式良好的 html,这在我的情况下是不可能的。

现在我需要一种非常简单的方法来通过 Div 或 span id/class 读取它。

这是我的 html http://jsfiddle.net/bwJU7/

请给我一个简单的 C# 代码,它将读取

div class="item " 

并在我的 html 中获取、title和。pricephotosdescription

4

1 回答 1

0

如果您将内容加载为字符串并且不希望从中获得任何常规结构,那么正则表达式是您的朋友。

这样的事情可能会帮助你:

String content = "Your content goes here";

var regex = new Regex("<div(?:.*?)class=\"item\"[^>]*>(.*?)</div>");
foreach (Match div in regex.Matches(content))
{               
    Console.WriteLine(div.Groups[0].Value);
}
于 2013-06-19T12:05:09.383 回答