xml - 使用 R 中的 library(rvest) 和 library(xml) 为专利数据选择 xml_nodes

Question

鉴于 EPO 的专利服务器 REPO 的以下（准）xml 结构：

<ep-patent-document id="EP79301547B1" file="EP79301547NWB1.xml" lang="en" country="EP" doc-number="0007815" kind="B1" date-publ="19871021" status="n" dtd-version="ep-patent-document-v1-1">
<SDOBI lang="en">
<B000>...</B000>
<B100>...</B100>
<B200>
<B210>79301547.0</B210>
<B220>
<date>19790801</date>
</B220>
<B240/>
<B250>en</B250>
<B251EP>en</B251EP>
<B260>en</B260>
</B200>
<B300>...</B300>
<B400>...</B400>
<B500>...</B500>
<B700>...</B700>
<B800>...</B800>
</SDOBI>
<!--  EPO <DP n="1">  -->
<!--  EPO <DP n="2">  -->
<description id="desc" lang="en">...</description>
<claims id="claims01" lang="en">...</claims>
<claims id="claims02" lang="de">...</claims>
<claims id="claims03" lang="fr">...</claims>
</ep-patent-document>

我想选择节点“B210”中的数字和“描述”中的文本。

使用

library(httr)
library(rvest)
library(XML)
library(magrittr)

files1993 <- list.files("~/Downloads", full.names=TRUE, recursive=TRUE)
y <- files1993[1]
parse1993 <- htmlParse(y) 

parse1993 %>% xml_nodes("description")
parse1993 %>% xml_nodes("SDOBI") %>% xml_nodes("B210")

我确实得到了描述文本，但 B210 没有。事实上，该命令不适用于 . 我是否必须将 SDOBI 中提供的信息转换为文本？我在这里有点迷路。任何帮助高度赞赏。

score 0 · Accepted Answer

很抱歉，这个回复有点晚了，但无论如何都想回复，以防其他人在同一主题上需要帮助。

首先，使用 EPO api 是一件非常痛苦的事情。xml 是一个熊，数据可能很脏且不一致。

PatentData.io似乎是一个更好的选择。他们拥有 EPO 数据集，通过现代 RESTful JSON api 进行清理和输出。 rjson更容易使用。如果您想花哨的话，它们还提供了一些很酷的高级搜索和分析功能。

他们现在仍处于测试阶段，但我认为他们正在积极吸引新的测试用户。一探究竟。

xml - 使用 R 中的 library(rvest) 和 library(xml) 为专利数据选择 xml_nodes

1 回答 1

Related

Reference