Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 web.response 方法作为网络爬虫收集信息。我将它收集到一个字符串中,然后将其保存到一个文本文件中。然后我使用正则表达式搜索该文本文件。现在的问题是,当我使用正则表达式搜索该文本文件时,我无法正确执行此操作,因为文本文件中有许多随机换行符。
我的问题是“有没有办法让我通过 web.response 方法获得的 XML (HTML) 文档在保存到文本文件之前可以正确格式化,这样文本中就没有随机空格和换行符。我什至不能在此处发布未格式化的 HTML,否则我会这样做。
Internet 可能会讨厌你这样做,但如果你有预定义的标准,你可以转换字符串,例如:
var formattedHtml = html.Replace(Environment.NewLine, "");
这可以解决你的问题。但从性能的角度来看,它是一个bad solution。
bad solution
对响应执行以下操作
>
<
另一个better solution将使用更好的正则表达式来搜索字符串
better solution