问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3065 浏览

regex - 你如何在 Freemarker 中转义正则表达式字符串

我正在使用内置的匹配字符串,需要运行正则表达式模式

(Views:).*?(span>)(.*?)(<\/div)

然而,Freemarker 却因为 ">" 字符而吓坏了,它是 Freemarker 中的一个特殊字符。任何想法如何解决这个问题?

0 投票
2 回答
396 浏览

html - 在Ruby中获取页面上所有href内容的最简单方法?

我正在用 Ruby 编写一个简单的网络爬虫,我需要获取href页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么,因为某些页面可能无效,但我仍然希望能够解析它们。

是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析,或者是最好的方法只是用正则表达式手动完成?

是否可以在非 XHTML 页面上使用 XPath?

0 投票
4 回答
1671 浏览

javascript - 如何在 JavaScript 中替换不在特定标签内的文本

我有一个字符串(部分是 HTML),我想将字符串替换:-)为 bbcode :wink:。但是这种替换不应发生在 内<pre>,而应发生在任何其他标签中(甚至不在标签内)。

例如,我想替换

到:

我已经使用以下 RegEx 进行了尝试,但它不起作用(没有任何内容被替换):

有人可以帮帮我吗?:-)

0 投票
7 回答
14521 浏览

java - Java:我有一大串 html,需要提取 href="..." 文本

我有这个包含大量 html 的字符串,并试图从字符串的 href="..." 部分中提取链接。href 可以是以下形式之一:

我对正则表达式并没有真正的问题,但由于某种原因,当我使用以下代码时:

有人可以告诉我我的代码有什么问题吗?我在 php 中做了这些东西,但是在 Java 中我做错了什么......发生的事情是,每当我尝试打印它时,它都会打印整个 html 字符串......

编辑:只是为了让每个人都知道我正在处理什么样的字符串:

每次我运行代码时,它都会打印整个字符串......这就是问题所在......

关于使用 jTidy ......我正在使用它,但知道在这种情况下出了什么问题也会很有趣......

0 投票
3 回答
2270 浏览

html - 使用 Perl 使用正则表达式解析 HTML 页面以获取链接

可能重复:
如何使用 Perl 从 HTML 中删除外部链接?

好的,我现在正在为一位刚刚将语言选择切换到 Perl 的客户工作。我在 Perl 方面不是最好的,但我以前用它做过类似的事情,尽管前一段时间。

有很多这样的链接:

我想匹配路径“/en/subtitles/3586224/death-becomes-her-en”并将它们放入数组或列表中(不确定在 Perl 中哪个更好)。我一直在搜索 perl 文档,以及查看正则表达式教程,并且大多数(如果不是全部)似乎都倾向于使用 ~= 来匹配内容而不是捕获匹配项。

谢谢,

科迪

0 投票
5 回答
9400 浏览

html - 如果我知道其中的标签,如何使用 Perl 的 HTML 模块找到 div 的内容?

自从我问如何使用正则表达式解析 html 并受到了一些打击(理所当然),我一直在研究HTML::TreeBuilderHTML::ParserHTML::TokeParserHTML::Elements Perl 模块。

我有这样的 HTML:

我想解析出/45/subtitles-67624.asp,但更重要的是我想知道如何解析出 div 的内容

我在上一个问题上得到了这个例子:

这非常有效,但是当我尝试对其进行一些编辑并在“div”上使用它时,它不起作用。这是我尝试过的代码:

我尝试使用此代码:

0 投票
5 回答
6958 浏览

regex - 使用正则表达式匹配对标记

我正在尝试从 xhtml 文档中检索特定标签及其内容,但它匹配错误的结束标签。

在以下内容中:

id="welcome" 的 content_block 结束标记实际上与第一个开始 content_block 标记的结束标记匹配。

我正在使用的正则表达式是:

关于我在哪里失败的任何指示?

0 投票
3 回答
1006 浏览

java - 在格式错误的 HTML 中按类型获取元素

在 Java 中检索格式错误的 HTML 页面中具有某种类型的所有元素的最简单方法是什么?所以我想做这样的事情:

0 投票
2 回答
1241 浏览

xml - 使用“Reader”和 Nokogiri 解析 XML 文档返回 LibXML 错误

在使用 Nokogiri 阅读器解析 XML 文件时,我是一个新手。这是我要解析的 XML 文件和示例代码:

以下是我收到的错误消息:

任何帮助将不胜感激。

0 投票
3 回答
1776 浏览

python - 让 BeautifulSoup 忽略脚本标签内的内容

我一直在尝试让 BeautifulSoup (3.1.0.1) 解析一个 html 页面,该页面有很多在标签内生成 html 的 javascript。一个示例片段如下所示:

BeautifulSoup 似乎无法处理这个问题,并抱怨 onMouseOver=**\"**menuOver_3821();\" 周围的“格式错误的开始标签”。似乎尝试解析由脚本块内的javascript生成的xml?!?

任何想法如何让 BeautifulSoup 忽略脚本标签内容?

我已经看到了使用 lxml 的其他建议,但不能,因为它必须在 Google AppEngine 上运行。