问题标签 [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 用逗号分割字符串也分割&符号
下面的代码解析 HTML,当数据中出现 & 符号时,问题是分裂。
输出
它正在拆分“&”而不是仅逗号。
谢谢
java - java.lang.NoClassDefFoundError: org/htmlparser/util/ParserException
我试图让这个http://htmlparser.sourceforge.net/代码在 Eclipse 中运行。有简单的说明“要使用该库,您需要在编译和运行时将 htmllexer.jar 或 htmlparser.jar 添加到您的类路径中。”
我已将 htmllexer.jar 和 htmlparser.jar 添加到我的构建路径中,并且一切都可以正常编译。但是在运行时 eclipse 似乎找不到那些 jar 文件。我不确定如何将这些 jar 文件添加到运行时类路径中......
我的日食看起来像这样:
python - 发生 HTMLParserError 时如何在 HTML 中查找错误行
现在我正在使用 python 编写一个网络爬虫,但有时它会抛出 HTMLParserError:
junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6
它说错误出现在第 21285 行,是否意味着错误出现在 HTML 源代码的第 21285 行?如果没有,我怎么知道当前产生错误的 HTML 代码是什么?当前的解析网址是什么?
我的解析类可以简化如下:
谢谢你的帮助。
android - 为什么 JSoup 解析错误的 HTML 代码?
我正在尝试解析网页,但是当我想在页面中获取一段文本时。当我调用 Jsoup.parse() 和 Jsoup.connect().get() 方法时,Jsoup 给我一个错误的文档。
这是网页和我的代码的一部分。doc var 有一个错误的 DOM。
doc1 变量结果为:
我做错什么了吗?
java - Java 使用 JSOUP 从 HTML 源代码中获取 RSS 链接
我正在尝试从 html 源代码中获取 RSS 链接。我使用Jsoup java 库来查找 rss 链接。我写了一小段代码来获取 RSS 链接,但不幸的是它不适用于所有网站。下面是我的代码
上述代码不适用于所有网站。请解决我的问题。(我正在尝试查找 RSS 2.0 链接)
谢谢你
python - 使用 HTMLParser 获取精确符号
HTMLParser.unescape
行为如下:
我应该怎么做才能得到确切的beta
符号而不是\u03b2
?
谢谢
php - 使用正则表达式或 HTML 解析器在 php 中查找所有以 pdf 文件为源的锚标记
我怎样才能找到所有anchor
带有源pdf的标签
我只需要abc.pdf
在字符串变量中
iphone - 如何在 iPhone 应用程序中解析 HTML 子标签?
我有包含大量图像和实时内容的 HTML 网页。我需要parse the data from the webpage(HTML)
在 iPhone 应用程序中显示。我正在使用以下代码来解析 HTML 内容。但我不知道如何解析标签中的子标签?
回复:
我想从phoneModelItems类中获取文本诺基亚模型。你能告诉我如何检索文本“诺基亚模型”吗?提前致谢。
python - django从字符串python中删除标签
我想用python从我的字符串中删除所有html标签,我使用这个:
但这删除了我所有的 html 标签。
java - Htmlparser 无法解析 Java 中的“tbody”
在org.htmlparser
我想tbody
通过id
为什么不nodelist1
读书<tr><td>4</td><td>5</td></tr>
?