我正在尝试解析网站的一些 HTML。我有一些工作代码,但不是很干净,所以我稍微重写了一点,以使用 DomDocument 和 XPath。
问题是特殊字符(变音符号和一些空格)由于 DomDocument 的某些错误或行为而被转换(请参阅:php DOMDocument - manipulating and encoding)。使用上面 Thread 的答案中提到的 hack,我变音符号出来了(我猜我需要使用 hack :-( )。但真正的问题是一些
空格仍然被转换(转换为 ASCII 194+160)。
任何想法为什么会发生这种情况,我该如何解决?
谢谢。