我正在尝试使用 Rcrawler 获取博物馆藏品的标签和数据。我想我在使用ExtractXpathPat
变量时犯了一个错误,但我不知道如何修复它。
我期望这样的输出:
1;"Titel(s)";"De StaalmeestersDe waardijns van het Amsterdamse lakenbereidersgilde, bekend als ‘De Staalmeesters’"
1;"Objecttype";"Schilderij"
1;"Objectnummer";"SK-A-2931"
但是输出文件在第三个位置重复标题:
1;"Titel(s)";"De StaalmeestersDe waardijns van het Amsterdamse lakenbereidersgilde, bekend als ‘De Staalmeesters’"
1;"Objecttype";"De StaalmeestersDe waardijns van het Amsterdamse lakenbereidersgilde, bekend als ‘De Staalmeesters’"
1;"Objectnummer";"De StaalmeestersDe waardijns van het Amsterdamse lakenbereidersgilde, bekend als ‘De Staalmeesters’"
HTML 如下所示:
<div class="item">
<h3 class="item-label h4-like">Objectnummer</h3>
<p class="item-data">SK-A-2931</p>
</div>
我的方法如下所示:
Rcrawler(Website = "https://www.rijksmuseum.nl/nl/",
no_cores = 4, no_conn = 4,
dataUrlfilter = '.*/collectie/.*',
ExtractXpathPat = c('//*[@class="item-label h4-like"]', '//*[@class="item-data"]'),
PatternsNames = c('label','data'),
ManyPerPattern = TRUE)
目标 说明 HTML 页面并不总是有相同的标签,有时它的标签没有相应的数据。有时数据在一个段落中,有时在无序列表中。
我的最终目标是创建一个 csv,其中包含网站的所有标签以及每行中的相应数据。
这个问题是收集标签和数据的第一步,然后我将使用它们来创建上面提到的 csv。