NBoilerPipe 是 BoilerPipe Java 库的 Mono 端口。我已经设法在 .NET 4 中正常工作,没有太多麻烦(一些库引用需要修复/等)。但是,通过代码搜索,我找不到任何用于 HTML 输出的“钩子”。例如,GetText() 方法只有一个输入参数,我看不到任何其他方法。如何从 NBoilerPipe 获取 HTML 输出?
这是在 .NET4 中工作的示例 NBoilerPipe 代码:
String url = "http:// <etc> "; String page = String.Empty; WebRequest request = WebRequest.Create (url); HttpWebResponse response = (HttpWebResponse)request.GetResponse (); Stream stream = response.GetResponseStream (); using (StreamReader streamReader = new StreamReader (stream, Encoding.UTF8)) { page = streamReader.ReadToEnd (); } String text = ArticleExtractor.INSTANCE.GetText (page); Console.WriteLine ("Text: \n" + text);