我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集?
专利引文数据集
该数据集包含两列引用和被引专利。施引栏是指提交专利的所有者ID?被引列是指构成第二个数据集的关键的专利 ID?专利描述数据集
该数据集中 有多个字段。为了形成这两个数据集的映射,它是从第一个数据集中引用或引用的列,在第二个数据集的第一列中具有相应的键(专利)?
我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集?
专利引文数据集
该数据集包含两列引用和被引专利。施引栏是指提交专利的所有者ID?被引列是指构成第二个数据集的关键的专利 ID?
专利描述数据集
该数据集中
有多个字段。为了形成这两个数据集的映射,它是从第一个数据集中引用或引用的列,在第二个数据集的第一列中具有相应的键(专利)?
让我们先弄清楚一些与专利相关的术语。
什么是引文?
引文是当一个文档提到另一个文档具有相关内容时链接在一起的文档
请参阅此链接以了解有关专利的更多信息 :)
“专利引用数据集”——这个数据集只提到了专利引用。
更像是说专利 A 使用专利 B、C 和 D
“引用”、“引用”</p>
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
3858242,1515701
3858242,3319261
3858242,3668705
3858242,3707004
从书中复制粘贴,所以这里专利号 3858242 引用(使用/引用)4 个其他专利,专利号 3858241 引用(使用/引用)5 个其他专利
专利描述数据集 ——有点像主表,它只保存每个专利的数据。
希望这可以为您解决一些问题。
我想在解决 HiA 书中的 Top K 记录时存在误解,在第 4.7 节中说:“Top K 记录 - 更改 AttributeMax.py(或 AttributeMax.php)以输出整个记录而不仅仅是最大值。重写它这样 MapReduce 作业就会输出具有前 K 个值的记录,而不仅仅是最大值。”
要使用的输入数据集实际上是 apat63_99.txt 文件,并且练习要求提供具有前 K 值 (CLAIMS) 的记录,而不仅仅是最大值。正如清单 4.6 中描述的 AttributeMax.py 给出了最大声明的记录。