问题标签 [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
775 浏览

java - 使用解析器更新 HTML 页面中的文本

我总是middlebitparent.replaceWith(nodespan); 在以下代码中出现错误,该代码是用 jsoup 编写的,用于导航 HTML 文档并更改单词“In”的背景颜色

错误说

更新:

是否有任何解析器可以以简单的方式更新文本节点中的文本

0 投票
1 回答
216 浏览

html-parser - 与 Jericho HTML Parser 相关的查询

我想使用解析器确定正文中特定 H2(或 h3/h4/h5/h6)文本的出现位置数。通过位置编号,我的意思是在这个特定的 h2(或 h3/h4/h5/h6)短语之前出现的“单词”的数量......此外,如果一个短语同时出现在 h2 和 h4 文本中(例如),那么如何确保我获得这两个文本的正确位置编号?

0 投票
1 回答
375 浏览

.net - 支持表单发布的 .NET HTML 解析器

我知道有用于解析 html 的库,例如 HTMLAgilityPack,但找不到支持表单发布或执行 javascript 的库。我想从我的 Windows 窗体应用程序中发布 html 表单,但不想使用 WebBrowser 控件或 MSHTML 库。

0 投票
3 回答
27712 浏览

java - 如何将用 Jsoup(Java html 解析器)制作的文档转换为字符串

我有一个用 jsoup 制作的文件,看起来像这样

我如何将其doc转换为字符串。

0 投票
2 回答
3018 浏览

regex - 创建我自己的 html 解析器

我知道这篇文章,我已经阅读了它,但我仍然想了解 html 解析器(可能)使用什么语言?我的意思是,它是用正则表达式解析整个源代码还是使用普通的编程语言,如 c# 或 python?

除了上面的问题,你能否简要介绍一下我应该从哪里开始创建自己的解析器?(我想为我的个人需求创建一个 html 解析器 :)

0 投票
1 回答
215 浏览

objective-c - 使用 HPPLE Html 解析器的错误

我正在尝试使用 HPPLE 解析器,但出现这些错误!任何人都可以帮助我,例如为什么 NASData 不能有错误? 在此处输入图像描述

0 投票
3 回答
2843 浏览

perl - 在 Perl 中使用 HTTP::Cookie 传递 Cookie 值

我需要登录到一个站点,解析 HTML 页面并提取特定 HTML 标记之间的值。

我可以在不需要登录数据的页面上成功执行此操作。我正在使用 HTML::Parser 类。

LWP::UserAgent 提供了 cookie_jar 方法来通过从文件中加载来设置 cookie。但是,我想在脚本本身中对 cookie 值进行硬编码。那可能吗?我在网上找不到任何工作示例。

这是我的代码:

请原谅在几个地方的变量声明中缺少“我的”。我匆忙写了这段代码,试图理解 LWP::UserAgent 中 Cookie 处理的概念。

概括:

我正在使用 HTML::Parser 类来解析 HTTP 响应 HTML 页面。为了读取标签之间的值,我重写了 HTML::Parser 的方法、开始、文本和结束。

cookie 值以 Key 和 Value 的形式传递。我知道,虽然我自己没有尝试过,但可以从文本文件中加载 cookie。但我想知道我们是否也可以这样做。

谢谢。

0 投票
3 回答
9444 浏览

java - 用于响应的 HTML 解析器 - Java

我使用 HttpClient 访问一个特定的网站,我得到的响应是 HTML 的形式。我应该使用哪个解析器或方法解析 HTML 并从响应中获取我想要的内容。注意:我在 Java 中使用 HttpClient

0 投票
1 回答
3005 浏览

java - 有标准的 Java SE HTML 解析器吗?如果是这样,为什么要使用非标准的?

我需要解析一个带有简单表单的简单 HTML 页面。StackOverflow 上类似问题的答案建议使用大量非标准 Java 库之一,例如 TagSoup、JSoup、HTMLParser 和许多其他库。

然而,网络搜索显示,Java SE 通过这个类存在一些标准功能:http: //docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

我的子问题是:

  1. 标准 ParserDelegator 类真的可以解析像我这样的用例吗?
  2. 标准库的局限性是什么导致了对这么多非标准库的需求?
  3. ParserDelegator 在 Swing 中的事实是否会排除在常规 EC2 云服务器中用于 Web 应用程序的情况?我是否必须跳过很多圈才能绕过无头方面,或者这只是对配置的一个小调整?
  4. 如果不推荐标准的,我应该使用哪个非标准的,考虑到:(a)我希望不偏离标准;(b) 我的简单用例;(c) 渴望成熟可靠的实施;(d) 没有尺寸或重量限制,因为这是一个服务器应用程序,而不是嵌入式客户端。API 的优先级要低得多,所以虽然我很欣赏 JSoup 的 CSS 选择器(如 API),但其他问题 (a) 到 (d) 会覆盖它。

谢谢你。

0 投票
2 回答
987 浏览

java - java - org.htmlparser.Parser ,需要得到h3之间的什么

htmlparser.Parser,我有 html 的片段(见下文),我需要在我的文件中获取一堆这些容器 div 的内容,其中包含 unqiue id。我可以得到 div 和它们的内部 html 就好了。我不知道如何获取 H3 标签之间的内容

这段代码适用于 div,但不适用于 h3:如果找到具有正确 ID 的 h3,我就是不知道如何获取 innerHTML 或标签之间的内容。

谢谢你的帮助

这会找到它,但不会返回 h3 之间的数据