问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
302 浏览

c++ - C++中HTML元素的非破坏性解析和修改

我需要在 C++ 中对 HTML 做一些简单的修改,最好不要完全重写 HTML,比如当我使用 libxml2 或 MSHTML 时会发生什么。

特别是我需要能够读取,然后(可能)修改所有“img”元素的“src”属性。我需要它足够健壮,以便能够使用任何有效的 HTML 来执行此操作,但最好不要在此过程中更改任何其他 HTML。

有没有图书馆可以处理这个问题?或者这是我可以用正则表达式做的事情吗?我对正则表达式不太了解,我在这里读过很多问题,说你不应该使用它们来解析 HTML,但我不清楚这是否适用于这样的事情,或者该原则是否适用主要是在从 HTML 构建树的上下文中进行解析。

0 投票
5 回答
5844 浏览

php - Regular Expression for Link Tags in HTML

I need help with regular expressions. What I'm looking for is a regex that looks for link-tags like this:

Irrespective of where href="" is positioned, I would like to look it up in the link-tag and put a variable named $url in front of style.css with a / following. If it finds http:// or https:// in front of style.css, then i don't want to put the variable in front of it.

I want every link-tag to be replaced.

0 投票
1 回答
572 浏览

php - 正则表达式将 string1 替换为 string2,除了在 html 标记内,或者作为 url 的一部分(在 html 之外)

我需要对大块 HTML 执行搜索和替换操作。我不希望更改属于 html 标记的任何内容(例如 url) - 我也不希望更改 html 标记之外的 url。我有一个部分解决方案来匹配不在 html ( src ) 中的单词:

而正则表达式伙伴也说这将匹配相同:

所以,剩下要做的就是确保单词不是看起来像 url 的字符串的一部分 - 像这样:

我不确定这是否可行,我的目的是保留文本中存在的 url,并且是内容 html 的一部分,同时允许对其他任何内容进行搜索和替换操作:

理想的解决方案将匹配 DOG 并替换为 CAT,如下图所示

效率加分,我几乎无能为力。

0 投票
3 回答
3795 浏览

regex - 正则表达式匹配 HTML 样式属性

这里需要一个正则表达式大师!

鉴于上述 HTML,我需要一个匹配“float:right”或“float:left”的正则表达式模式,但仅在 img 标签上。

提前致谢!

0 投票
12 回答
20783 浏览

php - PHP 的类似 jQuery 的界面?

我很好奇是否存在用于处理 HTML/XML 文件的 jQuery 样式的 PHP 界面/库 - 特别是使用 jQuery 样式选择器

我想做这样的事情(所有假设):

这些只是几个例子。

我做了尽可能多的谷歌搜索,但找不到我要找的东西。有谁知道是否存在这些方面的东西,或者这是我必须自己使用 domxml 从头开始​​制作的东西?

0 投票
8 回答
40725 浏览

php - PHP正则表达式删除HTML文档中的标签

说我有以下文字

我想删除链接,我想删除标签(同时保留文本)。如何使用正则表达式执行此操作(因为 URL 都会不同)

非常感谢

0 投票
2 回答
640 浏览

iphone - 将网页转换为 UITableView

我有一个UITableView,我想用这个页面的数据填充它:http: //tvgids.mobi/gids/ned1.php

我的代码:

那部分有效,但问题是:如何将电视节目列表放入UITableView?
我不能使用 XML 解析,因为该页面不是有效的 XML。该页面上的每个电视节目都是这样编写的(在 html 中):

我需要获取 v2-tijd(例如 13:30)和a's href(例如http://tvgids.mobi/vanavond-op-tv/8428198-NOS_Sportjournaal.xhtml)和内容(例如 NOS Sportjournaal)。

我该怎么做?

0 投票
2 回答
2432 浏览

ruby-on-rails - 在 Rails 中加载用于解析的网页

假设,我想从 Web 获取一个页面到我的应用程序并对其进行某种解析。我怎么做?我应该从哪里开始?应该需要一些插件/宝石吗?您解决此类任务的通常做法是什么?

0 投票
3 回答
4020 浏览

regex - 什么正则表达式可以匹配嵌套表格和表格单元格中的可识别文本?

什么正则表达式可以匹配嵌套表格和表格单元格中的可识别文本?我已经尝试但未能提出一个正则表达式来提取我想要的特定表,而不是在示例中抓取两个表的开头和结尾。这是开始的事情:“ <table>.*?</table>

假设我想提取包含“Code2”的表。什么正则表达式将专门匹配并且仅匹配该表?

0 投票
2 回答
2159 浏览

php - 用 BR 标签替换换行符,但仅限于 PRE 标签内

在 PHP5 中,preg_replace进行这种转换的好表达是什么:

<br />用, 但仅在<pre>块内替换换行符

(随意做出简化假设,并忽略极端情况。例如,我们可以假设标签将是一行,而不是像这样的病态的东西)

输入文本:

输出:

(激励上下文:试图关闭 wikimedia SyntaxHighlight_GeSHI 扩展中的错误 20760,并找到我的 PHP 技能(我主要做 python)不合格)。

除了正则表达式之外,我对其他解决方案持开放态度,但首选较小(例如,构建 html 解析机器是矫枉过正的)。