问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1097 浏览

python - 用逗号分割字符串也分割&符号

下面的代码解析 HTML,当数据中出现 & 符号时,问题是分裂。

输出
它正在拆分“&”而不是仅逗号。

谢谢

0 投票
2 回答
1205 浏览

java - java.lang.NoClassDefFoundError: org/htmlparser/util/ParserException

我试图让这个http://htmlparser.sourceforge.net/代码在 Eclipse 中运行。有简单的说明“要使用该库,您需要在编译和运行时将 htmllexer.jar 或 htmlparser.jar 添加到您的类路径中。”

我已将 htmllexer.jar 和 htmlparser.jar 添加到我的构建路径中,并且一切都可以正常编译。但是在运行时 eclipse 似乎找不到那些 jar 文件。我不确定如何将这些 jar 文件添加到运行时类路径中......

我的日食看起来像这样: 在此处输入图像描述

0 投票
2 回答
416 浏览

python - 发生 HTMLParserError 时如何在 HTML 中查找错误行

现在我正在使用 python 编写一个网络爬虫,但有时它会抛出 HTMLParserError:

junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6

它说错误出现在第 21285 行,是否意味着错误出现在 HTML 源代码的第 21285 行?如果没有,我怎么知道当前产生错误的 HTML 代码是什么?当前的解析网址是什么?

我的解析类可以简化如下:

谢谢你的帮助。

0 投票
1 回答
484 浏览

android - 为什么 JSoup 解析错误的 HTML 代码?

我正在尝试解析网页,但是当我想在页面中获取一段文本时。当我调用 Jsoup.parse() 和 Jsoup.connect().get() 方法时,Jsoup 给我一个错误的文档。

这是网页和我的代码的一部分。doc var 有一个错误的 DOM。

doc1 变量结果为:

我做错什么了吗?

0 投票
1 回答
2703 浏览

java - Java 使用 JSOUP 从 HTML 源代码中获取 RSS 链接

我正在尝试从 html 源代码中获取 RSS 链接。我使用Jsoup java 库来查找 rss 链接。我写了一小段代码来获取 RSS 链接,但不幸的是它不适用于所有网站。下面是我的代码

上述代码不适用于所有网站。请解决我的问题。(我正在尝试查找 RSS 2.0 链接)

谢谢你

0 投票
1 回答
175 浏览

python - 使用 HTMLParser 获取精确符号

HTMLParser.unescape行为如下:

我应该怎么做才能得到确切的beta符号而不是\u03b2

谢谢

0 投票
1 回答
583 浏览

php - 使用正则表达式或 HTML 解析器在 php 中查找所有以 pdf 文件为源的锚标记

我怎样才能找到所有anchor带有源pdf的标签

我只需要abc.pdf在字符串变量中

0 投票
1 回答
533 浏览

iphone - 如何在 iPhone 应用程序中解析 HTML 子标签?

我有包含大量图像和实时内容的 HTML 网页。我需要parse the data from the webpage(HTML)在 iPhone 应用程序中显示。我正在使用以下代码来解析 HTML 内容。但我不知道如何解析标签中的子标签?

回复:

我想从phoneModelItems类中获取文本诺基亚模型。你能告诉我如何检索文本“诺基亚模型”吗?提前致谢。

0 投票
1 回答
766 浏览

python - django从字符串python中删除标签

我想用python从我的字符串中删除所有html标签,我使用这个:

但这删除了我所有的 html 标签。

0 投票
1 回答
674 浏览

java - Htmlparser 无法解析 Java 中的“tbody”

org.htmlparser我想tbody通过id

为什么不nodelist1读书<tr><td>4</td><td>5</td></tr>