我想解析 XML Wikipedia 转储并从中提取所有不同类型的表(不仅仅是信息框)
我正在使用wikixmlj解析转储,但问题是解析维基百科转储中不同类型的表(拆分单元格表、合并单元格表、带有颜色代码的表)。
我能够解析 XML 文章,直到找到标记为表格的项目,但是在将表格解析为对象时我没有遵循的标准,而且似乎有许多类型的表格有很多排列。
是否有一些关于表类型的文档化标准要遵循,以便我可以在我要创建的运行时对象中涵盖这些标准,或者有什么方法可以解决这个问题?
笔记:
这些是一些示例,可以帮助您了解我的意思:
http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States 见 Andrew Jackson 行(一些行被合并和拆分)
http://en.wikipedia.org/wiki/List_of_pharaohs
http://en.wikipedia.org/wiki/Open_Handset_Alliance
http://en.wikipedia.org/wiki/Comparison_of_web_server_software 有时标题位于顶部和底部