我想从从 Web 获取的 HTML 文件中删除无效字符,以将其更改为 XML 格式。
我无法更改源代码,手动操作也不是一种选择,因为我每天必须处理数百个文件。
在某些 HTML 文件出现一个使代码无效的特殊字符之前,我一直做得很好。
当我加载伪装的 XML 文件时,我从浏览器收到警告
"This page contains the following errors:
error on line 137 at column 1: PCDATA invalid Char value 7
Below is a rendering of the page up to the first error."
在使用文本编辑器挖掘无效字符后,我发现:⟩,一个显然名为:&rang、&lang或●的字符,这导致了问题。
我试图用 PHP 删除它,但不起作用。
//create arrays
$find = array ('# #','#list#','#⟩#');
$replace = array ('','','');
//replace with array values
$list = preg_replace($find, $replace, $boletin_saveAsXml);
任何建议将不胜感激:)