问题标签 [html-parser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

204 问题

0 投票

2 回答

1097 浏览

python - 用逗号分割字符串也分割＆符号

下面的代码解析 HTML，当数据中出现 & 符号时，问题是分裂。

输出
它正在拆分“＆”而不是仅逗号。

谢谢

python html-parser

2012-04-19T04:38:43.290

0 投票

2 回答

1205 浏览

java - java.lang.NoClassDefFoundError: org/htmlparser/util/ParserException

我试图让这个http://htmlparser.sourceforge.net/代码在 Eclipse 中运行。有简单的说明“要使用该库，您需要在编译和运行时将 htmllexer.jar 或 htmlparser.jar 添加到您的类路径中。”

我已将 htmllexer.jar 和 htmlparser.jar 添加到我的构建路径中，并且一切都可以正常编译。但是在运行时 eclipse 似乎找不到那些 jar 文件。我不确定如何将这些 jar 文件添加到运行时类路径中......

我的日食看起来像这样：在此处输入图像描述

java eclipse classpath buildpath html-parser

2012-05-15T20:32:37.623

0 投票

2 回答

416 浏览

python - 发生 HTMLParserError 时如何在 HTML 中查找错误行

现在我正在使用 python 编写一个网络爬虫，但有时它会抛出 HTMLParserError：

junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6

它说错误出现在第 21285 行，是否意味着错误出现在 HTML 源代码的第 21285 行？如果没有，我怎么知道当前产生错误的 HTML 代码是什么？当前的解析网址是什么？

我的解析类可以简化如下：

谢谢你的帮助。

python html-parser

2012-05-21T08:48:33.377

0 投票

1 回答

484 浏览

android - 为什么 JSoup 解析错误的 HTML 代码？

我正在尝试解析网页，但是当我想在页面中获取一段文本时。当我调用 Jsoup.parse() 和 Jsoup.connect().get() 方法时，Jsoup 给我一个错误的文档。

这是网页和我的代码的一部分。doc var 有一个错误的 DOM。

doc1 变量结果为：

我做错什么了吗？

android jsoup html-parser

2012-05-22T11:14:46.303

0 投票

1 回答

2703 浏览

java - Java 使用 JSOUP 从 HTML 源代码中获取 RSS 链接

我正在尝试从 html 源代码中获取 RSS 链接。我使用Jsoup java 库来查找 rss 链接。我写了一小段代码来获取 RSS 链接，但不幸的是它不适用于所有网站。下面是我的代码

上述代码不适用于所有网站。请解决我的问题。（我正在尝试查找 RSS 2.0 链接）

谢谢你

java rss jsoup html-parser

2012-05-27T07:10:11.100

0 投票

1 回答

175 浏览

python - 使用 HTMLParser 获取精确符号

HTMLParser.unescape行为如下：

我应该怎么做才能得到确切的beta符号而不是\u03b2？

谢谢

python html-parser

2012-05-31T03:08:18.687

0 投票

1 回答

583 浏览

php - 使用正则表达式或 HTML 解析器在 php 中查找所有以 pdf 文件为源的锚标记

我怎样才能找到所有anchor带有源pdf的标签

我只需要abc.pdf在字符串变量中

php regex anchor html-parser

2012-06-12T06:16:04.920

0 投票

1 回答

533 浏览

iphone - 如何在 iPhone 应用程序中解析 HTML 子标签？

我有包含大量图像和实时内容的 HTML 网页。我需要parse the data from the webpage(HTML)在 iPhone 应用程序中显示。我正在使用以下代码来解析 HTML 内容。但我不知道如何解析标签中的子标签？

回复：

我想从phoneModelItems类中获取文本诺基亚模型。你能告诉我如何检索文本“诺基亚模型”吗？提前致谢。

iphone html ios tags html-parser

2012-06-12T12:43:18.333

0 投票

1 回答

766 浏览

python - django从字符串python中删除标签

我想用python从我的字符串中删除所有html标签，我使用这个：

但这删除了我所有的 html 标签。

python django html-parser

2012-06-15T12:37:03.803

0 投票

1 回答

674 浏览

java - Htmlparser 无法解析 Java 中的“tbody”

在org.htmlparser我想tbody通过id

为什么不nodelist1读书<tr><td>4</td><td>5</td></tr>？

java html-parser

2012-06-21T01:35:46.323

1 2 3 4 5 6 7 8 9 10