在输入时我有一个纯文本(在我的情况下通常是 HTML)和一个“语法规范”(从纯文本中提取数据到结构化数据的某种方式),然后在输出时我需要一些结构化数据(JSON 是很好,但也许存在更好的东西?)
这个任务有库吗?指定“语法规范”的好方法是什么?解决此类问题的最佳方法是什么?
在输入时我有一个纯文本(在我的情况下通常是 HTML)和一个“语法规范”(从纯文本中提取数据到结构化数据的某种方式),然后在输出时我需要一些结构化数据(JSON 是很好,但也许存在更好的东西?)
这个任务有库吗?指定“语法规范”的好方法是什么?解决此类问题的最佳方法是什么?
一些基于语法的转换工具:
添加:
要解析 HTML,您将需要一个 DOM 解析器,这取决于 html 代码的质量,使用您的语法规范来解析它,然后您需要提供一种您想要的数据结构,并且有库要做给你的东西
看看吉拉皮
这接受非结构化的纯文本并给出结构化的 JSON。
好吧,如果纯文本文件的结构是格式良好的,为什么不使用 Java DOM API(或 JDOM)结合 DOCTYPE 来创建 DOM 对象?从那里,您可以使用google-gson库之类的东西遍历该对象并轻松将其转换为 JSON 。