问题标签 [html-tableextract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - HTML::TableExtract - 传递标题的表达式
我有一个通过另一个脚本调用的子例程来读取 HTML 文件。下面是代码。
当我运行上面的脚本时,当标题作为变量传递时,它不会显示 HTML 表格数据。
但是,如果我用下面的硬编码值替换表达式$_[1]
,它将返回指定标题下的所有列值
我将子例程称为read_html($file, $headers)
where$file
是文件名并$headers
保存标头值,逗号分隔。
任何帮助将不胜感激。
perl - 当有重复的 Header 字段时如何使用 Perl TableExtract rows 方法
我正在尝试使用 TableExtract 解析一个表,其中一些标题具有相同的名称,但数据不同。rows 方法返回两组标题的第一个标题的值。
我打印这样的数据:
结果是这样的:
应该是这样的:
第一个“Schedule Actual Gate”数据(代表 Departure)在第二个“Schedule Actual Gate”列(代表 Arrival)中重复。
当我使用 Dumper($table) 转储整个表时,我可以看到正确的数据
如何让 rows 方法正确解析具有重复标题字段的表?
perl - HTML::TableExtract 与表格内的表格
我有一个小脚本,用于操作来自远程 URL 的代码(代码是单独的)。HTML::TableExtract 的手册页具有以下与执行表格中的表格提取相关的代码部分,即
我的代码包含这个,即:
但是,运行它给了我这个:
有什么我想念的吗?(如果有人有更好的方法从表格中提取表格(同时打印来自两者的信息,我全神贯注)
perl - 尝试在 Perl 中使用 HTML::TableExtract 从 HTML 文件中提取表格,但失败
我正在尝试从以下站点的表格中提取每个 G 蛋白偶联受体的信息:
http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1
更具体地说,我想从列(配体、Sp.、动作、亲和力、单位)中提取信息。目前,我一直在从我的提取中输出空文件,因此该模块似乎无法识别我指定的表。这是我迄今为止编写的代码,旨在遍历与每个 G 蛋白偶联受体信息相对应的每个 HTML 文件。
我写了一个以前的程序(幸好,它有效),它为每个 G 蛋白偶联受体获取了我各自的所有 HTML 文件,并一直将它传递到这个程序中。我不确定我是否使用了正确的标题、深度或计数。
如果这篇文章听起来很愚蠢,我深表歉意,但总的来说,我是生物信息学和编程的新手。谢谢你的帮助!
html - 在 Perl 中使用 HTML::TableExtract 和 HTML::Extor 从 HTML 表中获取链接
我的目标是从以下站点中标题为“激动剂”、“拮抗剂”和“变构调节剂”的表格中提取链接:
http://www.iuphar-db.org/DATABASE/ObjectDisplayForward?objectId=1&familyId=1
我一直在使用 HTML::TableExtract 来提取表格,但无法获取 HTML::LinkExtor 来检索有问题的链接。这是我到目前为止的代码:
我尝试使用该站点上另一个线程的一些示例代码(Perl parse links from HTML Table)无济于事。我不确定这是解析问题还是表格识别问题。提供的任何帮助将不胜感激。谢谢!
perl - Perl 从 HTML 表中打印行和列
这是我的temp.html
我正在尝试使用以下代码打印上表中的每个元素 -
它打印 -
如果我使用@{$table->rows->[$rowIndex]}->[$columnIndex]
而不是$table->rows->[$rowIndex][$columnIndex]
得到正确的输出,但会出现警告。如何删除警告?
python - 使用 beautifulsoup4 从 html 表中提取值(从第 2 行开始,第 1 列和第 6 列)
我是 python 新手,需要一些关于从 HTML 表中提取特定单元格值的指导。
我正在处理的 URL 可以在这里找到
我希望仅在 Month 和 Settlement 列中获取前 5 个值,然后将它们显示为:
我面临的问题是:
- 如何让循环从表中的第三个“TR”开始
- 如何仅获取 td[0] 和 td[6] 的值。
- 如何将循环限制为仅检索 5 行的值
这是我正在处理的代码:
谢谢并感谢任何形式的指导!
php - 使用 php 从 html 表中检索数据
我知道这个问题已经被问过很多次了,但我研究了很多例子,但我仍然无法从这个 html 表中获取我需要的数据。
我有一个生成这样的 html 表的 php 文件:
我想使用 php.ini 获取每个 DATA 集的 html(数字)(在每个样式之后)。
谁能阐明我如何做到这一点?
html - 在 Perl 中解析 HTML 时无法获取内容
我已经解决了这个问题:原来我使用 WWW::Mechanize 加载的页面使用 AJAX 加载其中的所有内容,<tbody>
因此在我创建 $html 变量时不会加载它。现在我必须看看如何获得这个动态内容......
我正在尝试解析网页中表格的内容。<table>
包含 a<thead>
和<tbody>
a 。当我从<tbody>
表格的一部分中获取内容时,我发现它都不存在。我只得到里面的内容<thead>
。
我尝试了几种不同的方法,如下所示,所有这些方法都没有从<tbody>
.
使用 HTML::TreeBuilder
使用 HTML::TableExtract
当我尝试执行print Dumper($table);
表中的一个时,我表明我正在找到<table>
并且只能看到<thead>
or内部的表内容<tbody>
以及对它的父级的引用,其中包含来自<thead>
.
我可以不太关心<thead>
我只需要表格内容中的内容<tbody>
。
我不确定我做错了什么以及从这里去哪里。
html - perl HTML::TableExtract 超出范围错误
我很难从 HTML 表中恢复数据。这就是我所拥有的。
我将此作为错误消息。
有没有更好的方法来查看表格并获取值。我没有要查找的标题,我查看了HTML::Query但找不到它,或者通过 PPM 和HTML::Element所需的Badger::Base看起来更适合用于表构造。我还在脚本的前面使用了WWW::Mechanize 。
对我上面的代码的任何帮助将不胜感激。