“html-tableextract”的相关标签问题

0 投票

1 回答

411 浏览

html - 从 HTML 表中提取数据并将其放入带有 shell 的文本文件中

我需要一个 shell 脚本来从站点获取 VPN 的公共密码（每天或多或少地刷新密码）。密码是一个 HTML 表格，位于网页 HTML 代码的特定行中。一旦我找回了密码（一个由 5 个字符组成的单词），我想把它放在一个简单的文本文件的末尾。我需要这样的脚本来自动更新基于 OpenWrt 的路由器的 OpenVPN 客户端中的密码。

这是我正在谈论的网页，这是第 265 行，密码所在的位置（密码有两种情况，脚本选择哪个无关紧要：

我要输入密码的文件将非常简单：

第一行是用户名，它总是一样的：“vpnjantit.com”。第二行是 5 个字符的密码。我需要脚本首先删除文件的第二行，然后将 html 文件中的密码放在第二行（用新密码替换旧密码）。

我环顾四周，并尝试使用awk、curl、cat和其他命令的顺序来做一些事情，但我无法得到想要的结果。真的不知道如何实现这一点。

非常感谢您的任何建议！

2018-03-31T14:05:23.223

0 投票

1 回答

786 浏览

html -
将html表格提取到R中，但在多页html中跳过具有三行/行的某一列中的特定元素（）

我想将链接中的表加载到 R中的数据框中。

以下脚本成功提取表：

但问题是：

第三列，即Formula Average Mass Monoisotopic Mass，具有三行/值/行，它们都混合在一起，因此显示为一个连续的字符串。我只想提取此列中的第一行/行或以某种方式将三个值彼此分开。

这是第三列的第一个单元格在呈现的 html 页面中的样子：

第三栏截图

如果我使用XML::readHTMLTable.

当我在 Chrome 中单击时Inspect Element，我可以在列中看到这样的单元格结构Formula Average Mass Monoisotopic Mass：

图片——请嵌入。我没有足够的声誉来做到这一点

但是，也有其他时候该列中的第二行和第三行为空。例子：

image -- 检查元素截图

那么如何从给定的链接中提取表格，但保持第三列的结构可读且不混淆？此外，是否可以在不遍历每个单独页面的链接的情况下提取所有页面中的表格？

html r dataframe html-table html-tableextract

2018-06-18T08:49:53.430

0 投票

0 回答

92 浏览

html - 如何使用Jsoup在HTML文档中的特定关键字（多次出现）之后查找特定的html表格段

我正在使用 jsoup 进行 HTML 表格解析。下面是我必须识别正确段的场景。识别正确段的过程是：
无论我在哪里找到关键字-> ABC，我都必须迭代直到获得<tr>HTML 标记（用于表识别），然后检查它是否包含所有 4 个关键字ForVote、AgainstVote、Absent、NoVotes第一行（如果没有，则转到下一次出现的关键字-> ABC）并遵循相同的过程。一旦我得到匹配表内的 4 个投票关键字，我就可以提取表中的数字。

我遇到的问题是：如果关键字ABC只出现一次，我可以解析。但是当ABC 不止一次出现导致解析错误的段时，就无法做到这一点
我要解析的示例 HTML 代码是：

Java 代码

我的逻辑是迭代直到找到 ABC。找到包含 ABC 的元素，为其添加一个 class=tagid。选择（div.tagid）。然后找到<tr>标签。查找表格是否为预期格式，即代码中的 isVertical=0。然后检查第一行中是否存在所有四个关键字。如果是，则解析数值。在多次出现“ABC”的情况下不起作用:-(

html lucene jsoup html-parsing html-tableextract

2019-02-25T13:19:37.927

0 投票

1 回答

64 浏览