java - 从 Wikipedia XML 转储中提取表

Question

我想解析 XML Wikipedia 转储并从中提取所有不同类型的表（不仅仅是信息框）

我正在使用wikixmlj解析转储，但问题是解析维基百科转储中不同类型的表（拆分单元格表、合并单元格表、带有颜色代码的表）。

我能够解析 XML 文章，直到找到标记为表格的项目，但是在将表格解析为对象时我没有遵循的标准，而且似乎有许多类型的表格有很多排列。

是否有一些关于表类型的文档化标准要遵循，以便我可以在我要创建的运行时对象中涵盖这些标准，或者有什么方法可以解决这个问题？

笔记：

这些是一些示例，可以帮助您了解我的意思：

http://en.wikipedia.org/wiki/List_of_Presidents_of_the_United_States 见 Andrew Jackson 行（一些行被合并和拆分）

http://en.wikipedia.org/wiki/List_of_pharaohs

http://en.wikipedia.org/wiki/Open_Handset_Alliance

http://en.wikipedia.org/wiki/Comparison_of_web_server_software 有时标题位于顶部和底部

score 0 · Accepted Answer

好的，如果您只对表格本身感兴趣，则需要执行以下操作

1-下载维基百科转储（所有转储）

2-将转储中的表提取到单独的文件或一组文件中：使用正则表达式\{\|[\s|\S]+?\n\|-?\}

3-使用库gwtwiki为转储构建模型，然后仅将表文件转换为 html：

-将这个类和这个类添加到项目中

-添加gwtwiki和其他必要的库

您现在拥有包含出现在整个维基百科转储中的表格的 html 文件，并且表格是 html 格式，因此很容易操作（请注意，如果您想通过代码操作任何文件以将其写入 unicode 文件，因为表中某些字符的编码）

java - 从 Wikipedia XML 转储中提取表

1 回答 1

Related

Reference