我有一个压缩的 freebase 数据转储,其中包含所有实体。如何使用 grep 或其他东西将数据转储修剪为仅包含英文实体?
这是我试图让 rdf 转储看起来像的样子:http ://play.golang.org/p/-WwSysL3y3
<card>
<title></title>
<image></image>
<text></text>
<facts>
<fact></fact>
<fact></fact>
<fact></fact>
</fact>
</card>
其中 card 是在所有子元素中具有内容的每个实体。标题是 /type/object/name。文本是由 完成的主题中间的图像"https://usercontent.googleapis.com/freebase/v1/image"%s"\n", id
。Text 是实体的 /common/document/text。和事实及其事实儿童作为事实,如年龄,出生日期,身高,在搜索的知识面板中显示的事实。
这是我尝试在 Go ( Golang ) 中将 rdf 解析为 xml 的尝试。如果有人可以帮助我以这种形式获得 rdf,我将不胜感激。
这是我正在尝试做的算法或逻辑:
For every entity written in english:
parse the `type/object/name`property's and write that to the xml file in the `<title></title>` element.
parse the mid and add that to `https://usercontent.googleapis.com/freebase/v1/image`and then write the result to the xml file in the <image></image> element.
parse the common/document/text property and writes its value to the <text></text> element.
And lastly, for each fact about the entity, write them to the <fact></fact> elements in the XML file, which are all children of the <facts></facts> element.