问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 你如何在 Freemarker 中转义正则表达式字符串
我正在使用内置的匹配字符串,需要运行正则表达式模式
(Views:).*?(span>)(.*?)(<\/div)
然而,Freemarker 却因为 ">" 字符而吓坏了,它是 Freemarker 中的一个特殊字符。任何想法如何解决这个问题?
html - 在Ruby中获取页面上所有href内容的最简单方法?
我正在用 Ruby 编写一个简单的网络爬虫,我需要获取href
页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么,因为某些页面可能无效,但我仍然希望能够解析它们。
是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析,或者是最好的方法只是用正则表达式手动完成?
是否可以在非 XHTML 页面上使用 XPath?
javascript - 如何在 JavaScript 中替换不在特定标签内的文本
我有一个字符串(部分是 HTML),我想将字符串替换:-)
为 bbcode :wink:
。但是这种替换不应发生在 内<pre>
,而应发生在任何其他标签中(甚至不在标签内)。
例如,我想替换
到:
我已经使用以下 RegEx 进行了尝试,但它不起作用(没有任何内容被替换):
有人可以帮帮我吗?:-)
java - Java:我有一大串 html,需要提取 href="..." 文本
我有这个包含大量 html 的字符串,并试图从字符串的 href="..." 部分中提取链接。href 可以是以下形式之一:
我对正则表达式并没有真正的问题,但由于某种原因,当我使用以下代码时:
有人可以告诉我我的代码有什么问题吗?我在 php 中做了这些东西,但是在 Java 中我做错了什么......发生的事情是,每当我尝试打印它时,它都会打印整个 html 字符串......
编辑:只是为了让每个人都知道我正在处理什么样的字符串:
每次我运行代码时,它都会打印整个字符串......这就是问题所在......
关于使用 jTidy ......我正在使用它,但知道在这种情况下出了什么问题也会很有趣......
html - 使用 Perl 使用正则表达式解析 HTML 页面以获取链接
好的,我现在正在为一位刚刚将语言选择切换到 Perl 的客户工作。我在 Perl 方面不是最好的,但我以前用它做过类似的事情,尽管前一段时间。
有很多这样的链接:
我想匹配路径“/en/subtitles/3586224/death-becomes-her-en”并将它们放入数组或列表中(不确定在 Perl 中哪个更好)。我一直在搜索 perl 文档,以及查看正则表达式教程,并且大多数(如果不是全部)似乎都倾向于使用 ~= 来匹配内容而不是捕获匹配项。
谢谢,
科迪
html - 如果我知道其中的标签,如何使用 Perl 的 HTML 模块找到 div 的内容?
自从我问如何使用正则表达式解析 html 并受到了一些打击(理所当然),我一直在研究HTML::TreeBuilder、HTML::Parser、HTML::TokeParser和HTML::Elements Perl 模块。
我有这样的 HTML:
我想解析出/45/subtitles-67624.asp
,但更重要的是我想知道如何解析出 div 的内容。
我在上一个问题上得到了这个例子:
这非常有效,但是当我尝试对其进行一些编辑并在“div”上使用它时,它不起作用。这是我尝试过的代码:
我尝试使用此代码:
regex - 使用正则表达式匹配对标记
我正在尝试从 xhtml 文档中检索特定标签及其内容,但它匹配错误的结束标签。
在以下内容中:
id="welcome" 的 content_block 结束标记实际上与第一个开始 content_block 标记的结束标记匹配。
我正在使用的正则表达式是:
关于我在哪里失败的任何指示?
java - 在格式错误的 HTML 中按类型获取元素
在 Java 中检索格式错误的 HTML 页面中具有某种类型的所有元素的最简单方法是什么?所以我想做这样的事情:
xml - 使用“Reader”和 Nokogiri 解析 XML 文档返回 LibXML 错误
在使用 Nokogiri 阅读器解析 XML 文件时,我是一个新手。这是我要解析的 XML 文件和示例代码:
以下是我收到的错误消息:
任何帮助将不胜感激。
python - 让 BeautifulSoup 忽略脚本标签内的内容
我一直在尝试让 BeautifulSoup (3.1.0.1) 解析一个 html 页面,该页面有很多在标签内生成 html 的 javascript。一个示例片段如下所示:
BeautifulSoup 似乎无法处理这个问题,并抱怨 onMouseOver=**\"**menuOver_3821();\" 周围的“格式错误的开始标签”。似乎尝试解析由脚本块内的javascript生成的xml?!?
任何想法如何让 BeautifulSoup 忽略脚本标签内容?
我已经看到了使用 lxml 的其他建议,但不能,因为它必须在 Google AppEngine 上运行。