我想从维基百科转储中提取信息框数据并使用 Solr 对其进行索引。
从维基百科转储中,我提取了 5000 个 xml 文件来处理。我应该在单独的 xml 中从这些 xml 文件中提取信息框数据还是让它在同一个 xml 中?
如何在 solr 架构中输入数据,因为我提取的 infobox.xml 中没有标签。
Infobox musical artist <!-- See Wikipedia:WikiProject_Musicians -->
| name = Russ Conway
| image =
| caption = Russ Conway, pictured on the front of his 1959 [[Extended play|EP]] ''More Party Pops''.
| image_size =
| background = non_vocal_instrumentalist
| birth_name = Trevor Herbert Stanford
| alias =
| birth_date = birth date|1925|09|2|df=y