Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
问题很简单,我想将 HTML 文本转换为纯文本,就像在列表中放置换行符<br>或标题标签、数字或标记等。
<br>
我目前正在使用BoilerPipe来执行此操作,但这不是该库的主要目标。还有一个可以做到这一点吗?
我真的很喜欢 selenium 的 java 库。使用 getBodyText() 获取去掉 html 标签并正确格式化的纯正文文本。
看...
硒 java API
使用 XML 解析器怎么样?这样,您就可以控制间距和换行符。
我怀疑一个成熟的 HTML 解析器和格式化程序是否可用,因为这会遇到诸如 CSS 解析之类的问题。