问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
20464 浏览

php - 在 PHP 中使用 preg_replace 时如何获得匹配项?

我试图抓住几个单词的大写字母并将它们包装在跨度标签中。我将preg_replace用于提取和包装目的,但它没有输出任何内容。

0 投票
4 回答
1268 浏览

php - 如何抓取 HTML 标签的内容?

嘿,所以我想做的是抓住第一段的内容。该字符串$blog_post包含许多段落,格式如下:

我遇到的问题是我正在编写一个正则表达式来获取第一个<p>标签和第一个结束</p>标签之间的所有内容。但是,它抓住了第一个<p>标签和最后一个结束</p>标签,这导致我抓住了所有东西。

这是我当前的代码:

0 投票
10 回答
330669 浏览

php - 如何使用 php 从 html 中提取 img src、title 和 alt?

我想创建一个页面,其中列出了我网站上的所有图像以及标题和替代表示。

我已经给我写了一个小程序来查找和加载所有 HTML 文件,但现在我被困在如何从这个 HTML中提取和src提取:titlealt

我想这应该用一些正则表达式来完成,但由于标签的顺序可能会有所不同,而且我需要所有这些,我真的不知道如何以一种优雅的方式解析它(我可以通过char方式,但这很痛苦)。

0 投票
0 回答
50335 浏览

php - 用于 PHP 的强大且成熟的 HTML 解析器

是否有任何可用于 PHP 的强大且成熟的 HTML 解析器?快速浏览一下 PEAR 并没有发现任何问题(很多类用于生成 HTML,而不是用于消费),Google 告诉我很多人已经开始然后放弃了各种解析器项目。

对 XML 解析器不感兴趣(除非那时可以使用格式不正确的 HTML)或使用正则表达式自行破解它。

意图澄清:我对过滤 HTML 内容不感兴趣,我对从 HTML 文档中提取信息感兴趣。

0 投票
9 回答
75385 浏览

javascript - IE中的HTML解析器问题

我正在尝试创建一个对话框,该对话框仅在选择的浏览器是 IE(任何版本)时才会出现,但是我收到此错误:

消息:HTML 解析错误:在关闭子元素之前无法修改父容器元素 (KB927917)

这就是 "Line/Char/Code" 0 中的所有内容,所以我不知道错误在哪里。我正在使用的代码是这样的:

我注意到如果我删除“BrowserDetect.browser”和 .version 它会删除错误,但我需要那些检查 =/...任何想法将不胜感激 =)。

0 投票
6 回答
2159 浏览

c# - 将 > 转换为 HTML 字符串中等效的 HTML 实体

我试图在包含 HTML 标记的 HTML 字符串中将 > 字符的所有实例转换为其等效的 HTML 实体 >。我所能得到的最远的解决方案是使用正则表达式。

这是我到目前为止所拥有的:

我遇到的主要问题是隔离不属于 HTML 标记的单个 > 字符。我不想转换任何现有标签,因为我需要保留 HTML 以进行渲染。如果我不转换 > 字符,我会得到格式错误的 HTML,这会导致浏览器出现渲染问题。

这是要解析的测试字符串的示例:

在上面的字符串中,作为 HTML 标记一部分的 > 字符都不应转换为 >。所以这:

应该变成这样:

另一个问题是上面的表达式使用了一个非捕获组,这很好,除了匹配在第 1 组中。我不太确定如何仅在第 1 组上进行替换并保留其余部分匹配。看起来 MatchEvaluator 并没有真正做到这一点,或者我现在无法想象它。

我怀疑我的正则表达式可以做一些爱。

有人有什么好主意吗?

0 投票
2 回答
800 浏览

html-parsing - 从网页中提取意义的全部内容

我正在通过使用我的爬虫挖掘网页内容来进行一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关链接),这会分散用户对实际内容的注意力。

考虑到没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置,据我了解,提取有意义的内容是一个难题。

我可以找到一些像这样的开源解决方案:https ://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过这个问题并获得了合理的成功率。这似乎是一个相当普遍的问题,我相信很多专家都在那里。我更喜欢基于 JAVA 的解决方案,但这不是硬性规定。请提供一些意见。我将深深感激。

0 投票
6 回答
4148 浏览

html - 我应该使用什么语言/工具进行 HTML 解析?

我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易。为什么?仅仅是因为我必须解析的 HTML 页面格式不正确(缺少结束标记等)。

考虑到我对我可以使用的技术、语言或工具没有任何限制,您对轻松解析和提取 HTML 页面中的数据有什么建议?我尝试过 HTML Agility Pack、BeautifulSoup,甚至这些工具都不是完美的(HTML Agility Pack 有问题,BeautifulSoup 解析引擎不适用于我传递给它的页面)。

0 投票
18 回答
69854 浏览

regex - 使用正则表达式解析 HTML:为什么不呢?

在stackoverflow上,提问者使用正则表达式从HTML中获取一些信息的每个问题似乎都不可避免地会有一个“答案”,即不使用正则表达式来解析HTML。

为什么不?我知道那里有quote-unquote“真正的”HTML解析器,例如Beautiful Soup,我相信它们功能强大且有用,但是如果您只是做一些简单,快速或肮脏的事情,那么为什么当一些正则表达式就可以正常工作时,还要麻烦使用如此复杂的东西吗?

此外,对于正则表达式,是否有一些我不了解的基本知识使它们成为一般解析的糟糕选择?

0 投票
2 回答
12800 浏览

python - 需要python lxml语法帮助来解析html

我是 python 的新手,我需要一些关于使用 lxml 查找和迭代 html 标签的语法方面的帮助。以下是我正在处理的用例:

HTML 文件的格式相当好(但并不完美)。屏幕上有多个表格,一个包含一组搜索结果,一个用于页眉和页脚。每个结果行都包含一个搜索结果详细信息的链接。

  1. 我需要找到带有搜索结果行的中间表(我能够弄清楚这一行):

    /li>
  2. 我需要找到此表中包含的链接(这是我卡住的地方):

    它似乎并没有真正找到链接元素。

  3. 我需要链接的纯文本。我想searchLink.text如果我实际上首先获得了链接元素,那将会是这样的。

最后,在 lxml 的实际 API 参考中,我无法找到有关 find 和 findall 调用的信息。我从在谷歌上找到的一些代码中收集到了这些。我是否遗漏了有关如何使用 lxml 有效查找和迭代 HTML 标记的内容?