有没有类似于Mahout 的 XmlInputFormat但适用于 Flink 的东西?
我有一个很大的 XML 文件,我想提取特定元素。就我而言,这是一个维基百科转储,我需要获取所有<page>
标签。
即如果我有一个文件
<mediawiki>
<siteinfo>...</siteinfo>
<page>...</page>
<page>...</page>
<page>...</page>
</mediawiki>
我想<page>...</page>
在映射器中使用所有 3 条记录。理想情况下,它应该是有效的 XML,即 xpath 查询/mediawiki/page
将返回的内容。