在我的代码中,我使用 openoffice 将一些样式化的 xls 文档转换为 html。然后我使用xml_parser_create
. <BR>
问题是 openoffice 创建带有未封闭和标签的 oldschool html <HR>
,它不创建 doctypes 并且不引用 attributes <TABLE WIDTH=4>
。
我知道的 php 解析器不喜欢这样,并产生 xml 格式错误。我目前的解决方案是在解析文件之前对文件运行一些正则表达式,但这既不好也不快。
你知道一个(希望包括在内的)php-parser,它不关心这些类型的错误吗?或者也许是修复“损坏”html的快速方法?