0

我正在使用 web.response 方法作为网络爬虫收集信息。我将它收集到一个字符串中,然后将其保存到一个文本文件中。然后我使用正则表达式搜索该文本文件。现在的问题是,当我使用正则表达式搜索该文本文件时,我无法正确执行此操作,因为文本文件中有许多随机换行符。

我的问题是“有没有办法让我通过 web.response 方法获得的 XML (HTML) 文档在保存到文本文件之前可以正确格式化,这样文本中就没有随机空格和换行符。我什至不能在此处发布未格式化的 HTML,否则我会这样做。

4

2 回答 2

0

Internet 可能会讨厌你这样做,但如果你有预定义的标准,你可以转换字符串,例如:

var formattedHtml = html.Replace(Environment.NewLine, "");
于 2013-01-25T16:47:58.407 回答
0

这可以解决你的问题。但从性能的角度来看,它是一个bad solution

对响应执行以下操作

  1. 提取><符号之间的内容并执行修剪空白操作
  2. 删除所有剩余的新行(如果存在)

另一个better solution将使用更好的正则表达式来搜索字符串

于 2013-01-25T18:02:40.883 回答