0

我下载了 Freebase Easy数据集(3.3GB)。我想在输入一些实体时调查这个数据集。例如:德语(freebase 中的类型:位置、国家、土地......)。 在此处输入图像描述

如何连接这三个文件以获得完整的数据集?

4

1 回答 1

0

这些文件(facts.txt freebase-links.txt score.txt)都是相同的格式,所以它们可以简单地连接起来。在类 Unix 系统上,您可以使用以下命令:

cat facts.txt freebase-links.txt scores.txt > all.txt

或者您可以通过执行以下操作来压缩所有内容

unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz

一个示例条目看起来像

$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t" 
B   prominence-score    1758.0  .
B   freebase-entity <http://rdf.freebase.com/ns/m.0560cf>   .
B   Transit System  New York City Subway    .
B   is-a    Topic   .
B   is-a    Transit Line    .
B   kg/object_profile/prominent_type    Transit Line    .

其中第一行来自scores.txt,第二行来自freebase-links.txt,其余来自facts.txt

于 2020-04-22T18:54:25.240 回答