问题标签 [html-tableextract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
670 浏览

perl - HTML::TableExtract - 传递标题的表达式

我有一个通过另一个脚本调用的子例程来读取 HTML 文件。下面是代码。

当我运行上面的脚本时,当标题作为变量传递时,它不会显示 HTML 表格数据。

但是,如果我用下面的硬编码值替换表达式$_[1],它将返回指定标题下的所有列值

我将子例程称为read_html($file, $headers)where$file是文件名并$headers保存标头值,逗号分隔。

任何帮助将不胜感激。

0 投票
1 回答
536 浏览

perl - 当有重复的 Header 字段时如何使用 Perl TableExtract rows 方法

我正在尝试使用 TableExtract 解析一个表,其中一些标题具有相同的名称,但数据不同。rows 方法返回两组标题的第一个标题的值。

我打印这样的数据:

结果是这样的:

应该是这样的:

第一个“Schedule Actual Gate”数据(代表 Departure)在第二个“Schedule Actual Gate”列(代表 Arrival)中重复。

当我使用 Dumper($table) 转储整个表时,我可以看到正确的数据

如何让 rows 方法正确解析具有重复标题字段的表?

0 投票
1 回答
603 浏览

perl - HTML::TableExtract 与表格内的表格

我有一个小脚本,用于操作来自远程 URL 的代码(代码是单独的)。HTML::TableExtract 的手册页具有以下与执行表格中的表格提取相关的代码部分,即

我的代码包含这个,即:

但是,运行它给了我这个:

有什么我想念的吗?(如果有人有更好的方法从表格中提取表格(同时打印来自两者的信息,我全神贯注)

0 投票
1 回答
2565 浏览

perl - 尝试在 Perl 中使用 HTML::TableExtract 从 HTML 文件中提取表格,但失败

我正在尝试从以下站点的表格中提取每个 G 蛋白偶联受体的信息:

http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1

更具体地说,我想从列(配体、Sp.、动作、亲和力、单位)中提取信息。目前,我一直在从我的提取中输出空文件,因此该模块似乎无法识别我指定的表。这是我迄今为止编写的代码,旨在遍历与每个 G 蛋白偶联受体信息相对应的每个 HTML 文件。

我写了一个以前的程序(幸好,它有效),它为每个 G 蛋白偶联受体获取了我各自的所有 HTML 文件,并一直将它传递到这个程序中。我不确定我是否使用了正确的标题、深度或计数。

如果这篇文章听起来很愚蠢,我深表歉意,但总的来说,我是生物信息学和编程的新手。谢谢你的帮助!

0 投票
2 回答
1031 浏览

html - 在 Perl 中使用 HTML::TableExtract 和 HTML::Extor 从 HTML 表中获取链接

我的目标是从以下站点中标题为“激动剂”、“拮抗剂”和“变构调节剂”的表格中提取链接:

http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1

我一直在使用 HTML::TableExtract 来提取表格,但无法获取 HTML::LinkExtor 来检索有问题的链接。这是我到目前为止的代码:

我尝试使用该站点上另一个线程的一些示例代码(Perl parse links from HTML Table)无济于事。我不确定这是解析问题还是表格识别问题。提供的任何帮助将不胜感激。谢谢!

0 投票
2 回答
1906 浏览

perl - Perl 从 HTML 表中打印行和列

这是我的temp.html

我正在尝试使用以下代码打印上表中的每个元素 -

它打印 -

如果我使用@{$table->rows->[$rowIndex]}->[$columnIndex]而不是$table->rows->[$rowIndex][$columnIndex]得到正确的输出,但会出现警告。如何删除警告?

0 投票
1 回答
638 浏览

python - 使用 beautifulsoup4 从 html 表中提取值(从第 2 行开始,第 1 列和第 6 列)

我是 python 新手,需要一些关于从 HTML 表中提取特定单元格值的指导。

我正在处理的 URL 可以在这里找到

我希望仅在 Month 和 Settlement 列中获取前 5 个值,然后将它们显示为:

我面临的问题是:

  1. 如何让循环从表中的第三个“TR”开始
  2. 如何仅获取 td[0] 和 td[6] 的值。
  3. 如何将循环限制为仅检索 5 行的值

这是我正在处理的代码:

谢谢并感谢任何形式的指导!

0 投票
2 回答
1986 浏览

php - 使用 php 从 html 表中检索数据

我知道这个问题已经被问过很多次了,但我研究了很多例子,但我仍然无法从这个 html 表中获取我需要的数据。

我有一个生成这样的 html 表的 php 文件:

我想使用 php.ini 获取每个 DATA 集的 html(数字)(在每个样式之后)。

谁能阐明我如何做到这一点?

0 投票
1 回答
339 浏览

html - 在 Perl 中解析 HTML 时无法获取内容

我已经解决了这个问题:原来我使用 WWW::Mechanize 加载的页面使用 AJAX 加载其中的所有内容,<tbody>因此在我创建 $html 变量时不会加载它。现在我必须看看如何获​​得这个动态内容......


我正在尝试解析网页中表格的内容。<table>包含 a<thead><tbody>a 。当我从<tbody>表格的一部分中获取内容时,我发现它都不存在。我只得到里面的内容<thead>

我尝试了几种不同的方法,如下所示,所有这些方法都没有从<tbody>.

使用 HTML::TreeBuilder

使用 HTML::TableExtract

当我尝试执行print Dumper($table);表中的一个时,我表明我正在找到<table>并且只能看到<thead>or内部的表内容<tbody>以及对它的父级的引用,其中包含来自<thead>.

我可以不太关心<thead>我只需要表格内容中的内容<tbody>

我不确定我做错了什么以及从这里去哪里。

0 投票
1 回答
203 浏览

html - perl HTML::TableExtract 超出范围错误

我很难从 HTML 表中恢复数据。这就是我所拥有的。

我将此作为错误消息。

有没有更好的方法来查看表格并获取值。我没有要查找的标题,我查看了HTML::Query但找不到它,或者通过 PPM 和HTML::Element所需的Badger::Base看起来更适合用于表构造。我还在脚本的前面使用了WWW::Mechanize 。

对我上面的代码的任何帮助将不胜感激。