问题标签 [html-tableextract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
411 浏览

html - 从 HTML 表中提取数据并将其放入带有 shell 的文本文件中

我需要一个 shell 脚本来从站点获取 VPN 的公共密码(每天或多或少地刷新密码)。密码是一个 HTML 表格,位于网页 HTML 代码的特定行中。一旦我找回了密码(一个由 5 个字符组成的单词),我想把它放在一个简单的文本文件的末尾。我需要这样的脚本来自动更新基于 OpenWrt 的路由器的 OpenVPN 客户端中的密码。

是我正在谈论的网页,这是第 265 行,密码所在的位置(密码有两种情况,脚本选择哪个无关紧要:

我要输入密码的文件将非常简单:

第一行是用户名,它总是一样的:“vpnjantit.com”。第二行是 5 个字符的密码。我需要脚本首先删除文件的第二行,然后将 html 文件中的密码放在第二行(用新密码替换旧密码)。

我环顾四周,并尝试使用awkcurlcat和其他命令的顺序来做一些事情,但我无法得到想要的结果。真的不知道如何实现这一点。

非常感谢您的任何建议!

0 投票
1 回答
786 浏览

html -
将html表格提取到R中,但在多页html中跳过具有三行/行的某一列中的特定元素( )

我想将链接中的表加载到 R中的数据框中。

以下脚本成功提取表:

但问题是:

第三列,即Formula Average Mass Monoisotopic Mass,具有三行/值/行,它们都混合在一起,因此显示为一个连续的字符串。我只想提取此列中的第一行/行或以某种方式将三个值彼此分开

这是第三列的第一个单元格在呈现的 html 页面中的样子:

第三栏截图

如果我使用XML::readHTMLTable.

当我在 Chrome 中单击时Inspect Element,我可以在列中看到这样的单元格结构Formula Average Mass Monoisotopic Mass

图片——请嵌入。我没有足够的声誉来做到这一点

但是,也有其他时候该列中的第二行和第三行为空。例子:

image -- 检查元素截图

那么如何从给定的链接中提取表格,但保持第三列的结构可读且不混淆?此外,是否可以在不遍历每个单独页面的链接的情况下提取所有页面中的表格?

0 投票
0 回答
92 浏览

html - 如何使用Jsoup在HTML文档中的特定关键字(多次出现)之后查找特定的html表格段

我正在使用 jsoup 进行 HTML 表格解析。下面是我必须识别正确段的场景。识别正确段的过程是:
无论我在哪里找到关键字-> ABC,我都必须迭代直到获得<tr>HTML 标记(用于表识别),然后检查它是否包含所有 4 个关键字ForVoteAgainstVoteAbsentNoVotes第一行(如果没有,则转到下一次出现的关键字-> ABC)并遵循相同的过程。一旦我得到匹配表内的 4 个投票关键字,我就可以提取表中的数字。

我遇到的问题是:如果关键字ABC只出现一次,我可以解析。但是当ABC 不止一次出现导致解析错误的段时,就无法做到这一点
我要解析的示例 HTML 代码是:

Java 代码

我的逻辑是迭代直到找到 ABC。找到包含 ABC 的元素,为其添加一个 class=tagid。选择(div.tagid)。然后找到<tr>标签。查找表格是否为预期格式,即代码中的 isVertical=0。然后检查第一行中是否存在所有四个关键字。如果是,则解析数值。在多次出现“ABC”的情况下不起作用:-(

0 投票
1 回答
64 浏览

html - 如何检索表,从中排除一些标签

我正在尝试使用 css 选择器从 html 表(main_table)中抓取数据。问题是,当我尝试获取所有行(tr)时,我从 main_table 内部的 inner_table 获得了额外的行,但我不知道如何排除 inner_table。

我试过css选择器

但它并不排除它。

我想从 main_table 中抓取所有数据,并排除内表。有人告诉我,我正在将选择器应用于父节点,但我不知道如何编辑我的 CSS。

0 投票
1 回答
87 浏览

perl - 使用 perl lwp linkextractor 下载文件

我正在尝试从网页下载文件。

首先,我使用linkextractor 获取链接,然后我想使用lwp 下载它们。我是perl 中的新手编程。

我做了以下代码...

我收到以下错误

提前致谢!

0 投票
1 回答
45 浏览

excel - 通过 VBA 捕获 web 表而不分页

我想在 https://mis.twse.com.tw/stock/sblInquiryCap.jsp?lang=en_us#中捕获表中的完整数据集

我正在使用另一篇文章中的代码,但由于分页符,我只能获取前 10 个数据。无论如何,我可以修改代码以捕获完整的数据集吗?

在此处输入图像描述

0 投票
1 回答
29 浏览

python-3.x - 如何使用 python 从 web 表中获取数据?

我在尝试从此 Web 表中获取数据时遇到问题。我想知道是否有人可以阐明我的情况,谢谢!

HTML:

在此处输入图像描述

0 投票
1 回答
57 浏览

python - Python在表格行中查找数据

假设我有一个包含 10 列和 100 行的 html 表,我要做的就是使用 Beautifulsoup 在退出时查找数据并打印整行。

0 投票
2 回答
74 浏览

perl - 如何将多个 HMTL 文件中的内容合并到一个文件中?

我有 100 多个具有以下结构的 html 文件。

我想将每个文件的第二个表()中第一行的第 2 列中的内容合并到一个 HTML 中,TABLE[2]ROW[1]COLUMN[2]以获得这样的输出

我是 perl 的新手,我请求一些帮助以指出我如何做到这一点。提前致谢。

下面开始为file1写一篇文章,但我不确定我是否以正确的方式进行。

0 投票
1 回答
61 浏览

python - Python Beautifulsoup htmltable 提取问题

我正在尝试从有点非结构化的 html 表中提取数据。HTML表格结构如下(示例数据) -

HTML表格结构如下(示例数据)

能够提取数据,但面临“ID”列的问题。“ID”是 2 列的单个标题,该表的结构也不一致。

运行以下代码 -

当我们比较实际输出与预期输出时 -

  • 我们缺少原始 html 表中的第 3 行(T1560)
  • 我们从原始 html 表中缺少第 5 行(T1059)这是因为复杂的表结构

提取后的实际表结构

在此处输入图像描述

预期的表结构

在此处输入图像描述

** HTML 表格 ** 这是链接“表格 - 使用的技术”