0

我必须将几个 100000 个非常旧的 html 文档放入 Web 应用程序中。我在使用 OWASP HTML Sanitizer 时看到了很好的效果,并且能够确保创建正确清理的 HTML。我唯一的问题是 HTML Sanitizer 对最大行长设置了硬性限制。确切地说,这是每行最多 250 个字节。不幸的是,这会导致一些单词在中间被拆分,这与显示的 html 相同(标有插入符号):

This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence".

                                                     ^

我怎样才能告诉消毒剂不要过早结束线路?

由于原始 html 中的某些行是 800 字节或更多字节,因此如果我能够告诉 sanitizer 仅在空白处插入中断,这也会有所帮助。

4

1 回答 1

0

这不是一个答案,而是一个坦白:截断行的影响是由我的代码的其他部分引起的,它对输出设置了行长度限制。

于 2015-03-06T14:12:11.633 回答