我目前正在开展一个项目,该项目涉及查找与某个关键字相关的“知识领域”。我打算用 DMOZ 来做这件事。例如,“布拉德皮特”给出
Arts: People: P: Pitt, Brad: Fan Pages (10)
Arts: People: P: Pitt, Brad: Articles and Interviews (5)
Arts: People: P: Pitt, Brad (4)
Arts: People: P: Pitt, Brad: Image Galleries (2)
Arts: People: P: Pitt, Brad: Movies (2)
等等...
我有来自 DMOZ 网站的 structure.rdf.u8 转储。有人向我提到,如果我不需要 URL,只需这个文件就足够了(我不需要网站,只需要与关键字有关的类别)。或者我还需要内容文件吗?
此外,我想知道使用 Python(任何库)解析结构文件的最佳方法。我对 XML 没有任何了解,尽管我很擅长 Python。