我想用German STW Thesaurus for Economics注释几个 XML 文件。您可以在此处获取RDF/XML、N3 和 Turtle 格式的 ZIP 存档文件(每个约 14MB)。
所以我写了一个 Python 脚本,它可以删除停用词、词形还原和词性标记。现在我想检查一个 XML 文件中的名词是否在 STW 本体中。如果是,我想为以后完成自动分类做不同的选择:
- 如果是
skos:altLabel
Word,则将其替换为skos:prefLabel
Word - 对文本不执行任何操作,但
skos:prefLabels
在文件末尾添加skos:prefLabel
和相关的出现计数skos:altLabels
- 使用 eg
skos:broader
查找与 .相关的经济部门或商品skos:prefLabel
。
我知道GATE和Apolda,它们能够做到这一点,但它们是基于 Java 的,我想最后用一个 Python 脚本来做所有事情。
有什么建议吗?