问题标签 [html-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 问题

0 投票

1 回答

3065 浏览

regex - 你如何在 Freemarker 中转义正则表达式字符串

我正在使用内置的匹配字符串，需要运行正则表达式模式

(Views:).*?(span>)(.*?)(<\/div)

然而，Freemarker 却因为 ">" 字符而吓坏了，它是 Freemarker 中的一个特殊字符。任何想法如何解决这个问题？

2009-11-02T23:13:29.187

0 投票

2 回答

396 浏览

html - 在Ruby中获取页面上所有href内容的最简单方法？

我正在用 Ruby 编写一个简单的网络爬虫，我需要获取href页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么，因为某些页面可能无效，但我仍然希望能够解析它们。

是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析，或者是最好的方法只是用正则表达式手动完成？

是否可以在非 XHTML 页面上使用 XPath？

html ruby regex parsing html-parsing

2009-11-02T23:39:54.340

0 投票

4 回答

1671 浏览

javascript - 如何在 JavaScript 中替换不在特定标签内的文本

我有一个字符串（部分是 HTML），我想将字符串替换:-)为 bbcode :wink:。但是这种替换不应发生在内<pre>，而应发生在任何其他标签中（甚至不在标签内）。

例如，我想替换

到：

我已经使用以下 RegEx 进行了尝试，但它不起作用（没有任何内容被替换）：

有人可以帮帮我吗？:-)

javascript regex html-parsing

2009-11-03T11:40:05.523

0 投票

7 回答

14521 浏览

java - Java：我有一大串 html，需要提取 href="..." 文本

我有这个包含大量 html 的字符串，并试图从字符串的 href="..." 部分中提取链接。href 可以是以下形式之一：

我对正则表达式并没有真正的问题，但由于某种原因，当我使用以下代码时：

有人可以告诉我我的代码有什么问题吗？我在 php 中做了这些东西，但是在 Java 中我做错了什么......发生的事情是，每当我尝试打印它时，它都会打印整个 html 字符串......

编辑：只是为了让每个人都知道我正在处理什么样的字符串：

每次我运行代码时，它都会打印整个字符串......这就是问题所在......

关于使用 jTidy ......我正在使用它，但知道在这种情况下出了什么问题也会很有趣......

java html regex html-parsing

2009-11-03T22:35:13.757

0 投票

3 回答

2270 浏览

html - 使用 Perl 使用正则表达式解析 HTML 页面以获取链接

可能重复：
如何使用 Perl 从 HTML 中删除外部链接？

好的，我现在正在为一位刚刚将语言选择切换到 Perl 的客户工作。我在 Perl 方面不是最好的，但我以前用它做过类似的事情，尽管前一段时间。

有很多这样的链接：

我想匹配路径“/en/subtitles/3586224/death-becomes-her-en”并将它们放入数组或列表中（不确定在 Perl 中哪个更好）。我一直在搜索 perl 文档，以及查看正则表达式教程，并且大多数（如果不是全部）似乎都倾向于使用 ~= 来匹配内容而不是捕获匹配项。

谢谢，

科迪

html regex perl parsing html-parsing

2009-11-05T20:58:08.603

0 投票

5 回答

9400 浏览

html - 如果我知道其中的标签，如何使用 Perl 的 HTML 模块找到 div 的内容？

自从我问如何使用正则表达式解析 html 并受到了一些打击（理所当然），我一直在研究HTML::TreeBuilder、HTML::Parser、HTML::TokeParser和HTML::Elements Perl 模块。

我有这样的 HTML：

我想解析出/45/subtitles-67624.asp，但更重要的是我想知道如何解析出 div 的内容。

我在上一个问题上得到了这个例子：

这非常有效，但是当我尝试对其进行一些编辑并在“div”上使用它时，它不起作用。这是我尝试过的代码：

我尝试使用此代码：

html perl html-parsing

2009-11-07T07:53:15.717

0 投票

5 回答

6958 浏览

regex - 使用正则表达式匹配对标记

我正在尝试从 xhtml 文档中检索特定标签及其内容，但它匹配错误的结束标签。

在以下内容中：

id="welcome" 的 content_block 结束标记实际上与第一个开始 content_block 标记的结束标记匹配。

我正在使用的正则表达式是：

关于我在哪里失败的任何指示？

regex html-parsing

2009-11-07T12:08:42.603

0 投票

3 回答

1006 浏览

java - 在格式错误的 HTML 中按类型获取元素

在 Java 中检索格式错误的 HTML 页面中具有某种类型的所有元素的最简单方法是什么？所以我想做这样的事情：

java html-parsing

2009-11-11T01:38:41.910

0 投票

2 回答

1241 浏览

xml - 使用“Reader”和 Nokogiri 解析 XML 文档返回 LibXML 错误

在使用 Nokogiri 阅读器解析 XML 文件时，我是一个新手。这是我要解析的 XML 文件和示例代码：

以下是我收到的错误消息：

任何帮助将不胜感激。

xml nokogiri html-parsing

user209282

2009-11-12T04:43:44.157

0 投票

3 回答

1776 浏览

python - 让 BeautifulSoup 忽略脚本标签内的内容

我一直在尝试让 BeautifulSoup (3.1.0.1) 解析一个 html 页面，该页面有很多在标签内生成 html 的 javascript。一个示例片段如下所示：

BeautifulSoup 似乎无法处理这个问题，并抱怨 onMouseOver=**\"**menuOver_3821();\" 周围的“格式错误的开始标签”。似乎尝试解析由脚本块内的javascript生成的xml？！？

任何想法如何让 BeautifulSoup 忽略脚本标签内容？

我已经看到了使用 lxml 的其他建议，但不能，因为它必须在 Google AppEngine 上运行。

python beautifulsoup html-parsing

2009-11-14T01:48:27.627

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parsing]

Reference