1

我想从维基百科转储中提取信息框数据并使用 Solr 对其进行索引。

从维基百科转储中,我提取了 5000 个 xml 文件来处理。我应该在单独的 xml 中从这些 xml 文件中提取信息框数据还是让它在同一个 xml 中?

如何在 solr 架构中输入数据,因为我提取的 infobox.xml 中没有标签。

Infobox musical artist <!-- See Wikipedia:WikiProject_Musicians -->
| name                = Russ Conway
| image                 =
| caption            = Russ Conway, pictured on the front of his 1959 [[Extended play|EP]] ''More Party Pops''.
| image_size            = 
| background          = non_vocal_instrumentalist
| birth_name          = Trevor Herbert Stanford
| alias               = 
| birth_date          = birth date|1925|09|2|df=y
4

0 回答 0