我下载了 Freebase Easy数据集(3.3GB)。我想在输入一些实体时调查这个数据集。例如:德语(freebase 中的类型:位置、国家、土地......)。
如何连接这三个文件以获得完整的数据集?
我下载了 Freebase Easy数据集(3.3GB)。我想在输入一些实体时调查这个数据集。例如:德语(freebase 中的类型:位置、国家、土地......)。
如何连接这三个文件以获得完整的数据集?
这些文件(facts.txt freebase-links.txt score.txt)都是相同的格式,所以它们可以简单地连接起来。在类 Unix 系统上,您可以使用以下命令:
cat facts.txt freebase-links.txt scores.txt > all.txt
或者您可以通过执行以下操作来压缩所有内容
unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz
一个示例条目看起来像
$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t"
B prominence-score 1758.0 .
B freebase-entity <http://rdf.freebase.com/ns/m.0560cf> .
B Transit System New York City Subway .
B is-a Topic .
B is-a Transit Line .
B kg/object_profile/prominent_type Transit Line .
其中第一行来自scores.txt
,第二行来自freebase-links.txt
,其余来自facts.txt
。