我正在使用带有 xml 包的 R 来解析存储在 html 文件中的数据。使用来自另一个问题(https://stackoverflow.com/a/1849388/1409652)的建议,我正在使用 readHTMLTable 函数在这个问题上做饭。
我有一个问题,即感兴趣的 html 表有两个标题。其中一个没有被 readHTMLTable 拾取,并提供了一些与数据相关的单元的识别信息(这些信息因所有不同的 html 文件而异,所以我需要阅读它们,而不仅仅是放入默认值)。
我认为我需要将 xml 包中的一个函数指向 html 文件并定位我想要的特定行。不幸的是,我不知道哪个功能以及我对这方面的术语的了解不是很好。我在下面放了一个 HTML 代码示例,但没有包含值,因为它们很敏感,如果有帮助,我可以交换一些虚拟数据并发布它。因此,包含“Period”、“Volume”、“Tariff”的标题以及表体中的所有数据都很好。包含“Unit1”、“Unit2 等”的标题未通过。
<thead>
<tr>
<th class="center" colspan="1" rowspan="1"></th><th class="center" onmouseover="javascript:Tip('Unit1');" onmouseout="javascript:UnTip('');" colspan="4" rowspan="1">Unit1</th><th class="center" onmouseover="javascript:Tip('Unit2');" onmouseout="javascript:UnTip('');" colspan="4" rowspan="1">Unit2</th><th class="center" onmouseover="javascript:Tip('Unit3');" onmouseout="javascript:UnTip('');" colspan="4" rowspan="1">Unit3</th><th class="center" onmouseover="javascript:Tip('Others');" onmouseout="javascript:UnTip('');" colspan="4" rowspan="1">Others</th>
</tr><tr>
<th class="left" colspan="1" rowspan="1">Period</th><th class="left" colspan="1" rowspan="1">Volume</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Tariff</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Volume</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Tariff</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Volume</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Tariff</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Volume</th><th class="left" colspan="1" rowspan="1">%</th><th class="left" colspan="1" rowspan="1">Tariff</th><th class="left" colspan="1" rowspan="1">%</th>
</tr>
</thead>
<tbody>…all the data…</tbody>
总而言之,是否有人对如何使用 R 中的 xml 包提取上述 html 中的单元信息有任何指示(尽管如果这是最好的方法,也很乐意使用其他包)?