问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1915 浏览

python - 如何使用python在h1标签之后在现有的html文件中添加新的div标签

我有一个 html 文件,我想在 h1 标签之后添加一个 div 标签。div 标签将有一个锚标签。我如何使用 python 编辑现有的 html 文件并添加带有链接的 div 这就是我想要做的

我尝试了 BeatifulSoup。得到 AttributeError: 'NoneType' object has no attribute 'insert_after' 这个错误:

请建议修改此代码以在当前 html 文件中添加 div 标签

0 投票
2 回答
1551 浏览

python - Beautiful Soup Extracting Data After href (not url)

I am new to using BeautifulSoup and am try to use it to grab some test data from NHL.com. Here is my code so far but I am pretty lost...

Here is a snippet of the HTML code I want to extract data from:

I would like to extract data from these fields for the entire page, so there are about 30 different table rows. Here is my Python code so far, I'm not really sure where to go.

I know it isn't much but I have no idea how to go about this. Thanks for the help everyone

EDIT: I solved the problem, and hopefully this will help anyone in the future. Here is my code:

0 投票
1 回答
366 浏览

python - HTMLParser unescape 不传递 < 或 > 在 Pyramid 应用程序中未转义

标题说明了大部分内容。Python3.3 使用 Pyramid 应用程序框架 (-s starter) 将此代码添加到 views.py 控制器:

如果 return dict(..) 被传递给一个带有简单 ${string} 标记的模板,那么 Web 浏览器中的结果总是显示尖括号而不是将它们呈现为标签。即,网页显示:<p>您好!</p>

我需要能够将用户内容(带有标记的html)传递给模板,以便它内联呈现。我还需要做什么?

0 投票
2 回答
5391 浏览

java - 如何在java中使用JSoup通过表id解析html表数据

我需要将客户的表数据存储到数据库中。

有 n 个表没有提供任何表类(直接使用网页中的 Table_id)。

例子:

如果有一个表类,显然我可以很容易地解析它,但是没有类只是在表中给出了 id。

我知道只有一个单词语法,除了

也许我找不到它。如何找到它?我努力了

for (Element table : doc.select("table.AutoNumber5")

但这对我不起作用。

如何解决这个问题?

0 投票
1 回答
86 浏览

java - 使用 htmlparser 解析网站时无法获取所有匹配的节点

我正在使用 htmlparser 解析网站,但我陷入了一个非常奇怪的问题。我正在尝试获取<li>网页上的所有节点,我的代码如下:

但是列表大小的输出始终为 20。似乎它并没有遍历该页面上的所有节点。为什么?感谢您的任何建议。

0 投票
0 回答
79 浏览

python - 不代理 cod python 程序员不

首先,我想强调我不是程序员。


我已经编写了这段代码,但我无法运行它。我使用 Visual Studio 2013,我有以下问题:

  • print "Beginning %s" % tag --- 无效的语法

  • print sou*p*.find('div', {'id': 'bar'}).p.text -----无效语法

这是我写的代码。它旨在检索所选标签的内容。

0 投票
1 回答
1554 浏览

javascript - Node js htmlparser2流完成事件?

嘿,我正在使用 htmlparser2 来解析 xml。以下是我的代码

我无法找到 htmlparser2 是否有任何事件告诉我们解析已完成。

我想打印 sitemapUrls 数组的长度。

提前致谢

0 投票
1 回答
8902 浏览

r - 处理 htmlParse 错误(未能加载 HTTP 资源)

我正在尝试网页抓取页面。但是,有时我的循环不起作用,因为解析器“无法加载 HTTP 资源”。问题是页面没有在我的浏览器中加载,所以这不是代码的问题。

但是,在为我发现错误的每个页面创建异常后必须重新启动该过程是非常烦人的。我想知道是否有办法设置 if 条件。我正在考虑类似的事情:如果发生错误,则在下一步重新启动循环。

我查看了 htmlParse 的帮助页面,发现有一个错误参数,但不明白如何使用它。对我的 if 条件有什么想法吗?

下面是一个可重现的例子:

0 投票
3 回答
351 浏览

regex - 使用 perl 正则表达式解析 HTML

我创建了一个 Perl 脚本,它会在用户输入哈希值后使用在线网站来破解 MD5 哈希值。我部分成功,因为我能够从网站获得响应,但我需要解析 HTML 并以明文形式向用户显示哈希和相应的密码。以下是我现在得到的输出片段:

使用 regex buddy,我能够使用以下表达式[a-z0-9]{32}单独匹配哈希部分。我需要以下格式的最终​​输出:

任何帮助,将不胜感激。谢谢!

0 投票
1 回答
829 浏览

python - beautifulsoup 查找特定标签

我开始接触beautifulsoup,但遇到了一个我似乎无法解决的问题。

我有这个

网站并想要解析项目的值。该值可以在之间找到

标签和

获取这些值不是问题,问题是检查值是否在<i class="gw2money-silver">or<i class="gw2money-copper">标记内。

这就是我目前检索铜和银值的方式。