0

我想用German STW Thesaurus for Economics注释几个 XML 文件。您可以在此处获取RDF/XML、N3 和 Turtle 格式的 ZIP 存档文件(每个约 14MB)。

所以我写了一个 Python 脚本,它可以删除停用词、词形还原和词性标记。现在我想检查一个 XML 文件中的名词是否在 STW 本体中。如果是,我想为以后完成自动分类做不同的选择:

  • 如果是skos:altLabelWord,则将其替换为skos:prefLabelWord
  • 对文本不执行任何操作,但skos:prefLabels在文件末尾添加skos:prefLabel和相关的出现计数skos:altLabels
  • 使用 egskos:broader查找与 .相关的经济部门商品skos:prefLabel

我知道GATEApolda,它们能够做到这一点,但它们是基于 Java 的,我想最后用一个 Python 脚本来做所有事情。

有什么建议吗?

4

1 回答 1

0

我不知道这是否正是您正在寻找的,但要使用 RDF,您有RDFLib

您可以在此答案此处指出的工具/库中获得更多指导。

希望这可以帮助!:)

于 2015-09-10T21:10:19.690 回答