我使用下面的脚本尝试从 PDF 转换的 HTML 文件中提取数据。
temp.html <- scan(file=filename,what="character")
pagetree <- htmlTreeParse(temp.html, error=function(...){}, useInternalNodes = TRUE)
tx.raw <- getNodeSet(pagetree,"//div")
创建一个列表,其中tx.raw
一个如下所示:
tx[[170]]
[[170]]
<div style="position:absolute;top:985;left:748">
<nobr>
<span class="ft03">
971.72
</span>
</nobr>
</div>
我需要的信息在里面span
(即971.72
),但我还需要让我知道数据在 pdf 文件中的确切style
位置。我怎样才能提取样式信息呢?谢谢。div
span