问题标签 [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用解析器更新 HTML 页面中的文本
我总是middlebitparent.replaceWith(nodespan);
在以下代码中出现错误,该代码是用 jsoup 编写的,用于导航 HTML 文档并更改单词“In”的背景颜色
错误说
更新:
是否有任何解析器可以以简单的方式更新文本节点中的文本
html-parser - 与 Jericho HTML Parser 相关的查询
我想使用解析器确定正文中特定 H2(或 h3/h4/h5/h6)文本的出现位置数。通过位置编号,我的意思是在这个特定的 h2(或 h3/h4/h5/h6)短语之前出现的“单词”的数量......此外,如果一个短语同时出现在 h2 和 h4 文本中(例如),那么如何确保我获得这两个文本的正确位置编号?
.net - 支持表单发布的 .NET HTML 解析器
我知道有用于解析 html 的库,例如 HTMLAgilityPack,但找不到支持表单发布或执行 javascript 的库。我想从我的 Windows 窗体应用程序中发布 html 表单,但不想使用 WebBrowser 控件或 MSHTML 库。
java - 如何将用 Jsoup(Java html 解析器)制作的文档转换为字符串
我有一个用 jsoup 制作的文件,看起来像这样
我如何将其doc
转换为字符串。
regex - 创建我自己的 html 解析器
我知道这篇文章,我已经阅读了它,但我仍然想了解 html 解析器(可能)使用什么语言?我的意思是,它是用正则表达式解析整个源代码还是使用普通的编程语言,如 c# 或 python?
除了上面的问题,你能否简要介绍一下我应该从哪里开始创建自己的解析器?(我想为我的个人需求创建一个 html 解析器 :)
objective-c - 使用 HPPLE Html 解析器的错误
我正在尝试使用 HPPLE 解析器,但出现这些错误!任何人都可以帮助我,例如为什么 NASData 不能有错误?
perl - 在 Perl 中使用 HTTP::Cookie 传递 Cookie 值
我需要登录到一个站点,解析 HTML 页面并提取特定 HTML 标记之间的值。
我可以在不需要登录数据的页面上成功执行此操作。我正在使用 HTML::Parser 类。
LWP::UserAgent 提供了 cookie_jar 方法来通过从文件中加载来设置 cookie。但是,我想在脚本本身中对 cookie 值进行硬编码。那可能吗?我在网上找不到任何工作示例。
这是我的代码:
请原谅在几个地方的变量声明中缺少“我的”。我匆忙写了这段代码,试图理解 LWP::UserAgent 中 Cookie 处理的概念。
概括:
我正在使用 HTML::Parser 类来解析 HTTP 响应 HTML 页面。为了读取标签之间的值,我重写了 HTML::Parser 的方法、开始、文本和结束。
cookie 值以 Key 和 Value 的形式传递。我知道,虽然我自己没有尝试过,但可以从文本文件中加载 cookie。但我想知道我们是否也可以这样做。
谢谢。
java - 用于响应的 HTML 解析器 - Java
我使用 HttpClient 访问一个特定的网站,我得到的响应是 HTML 的形式。我应该使用哪个解析器或方法解析 HTML 并从响应中获取我想要的内容。注意:我在 Java 中使用 HttpClient
java - 有标准的 Java SE HTML 解析器吗?如果是这样,为什么要使用非标准的?
我需要解析一个带有简单表单的简单 HTML 页面。StackOverflow 上类似问题的答案建议使用大量非标准 Java 库之一,例如 TagSoup、JSoup、HTMLParser 和许多其他库。
然而,网络搜索显示,Java SE 通过这个类存在一些标准功能:http: //docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html
我的子问题是:
- 标准 ParserDelegator 类真的可以解析像我这样的用例吗?
- 标准库的局限性是什么导致了对这么多非标准库的需求?
- ParserDelegator 在 Swing 中的事实是否会排除在常规 EC2 云服务器中用于 Web 应用程序的情况?我是否必须跳过很多圈才能绕过无头方面,或者这只是对配置的一个小调整?
- 如果不推荐标准的,我应该使用哪个非标准的,考虑到:(a)我希望不偏离标准;(b) 我的简单用例;(c) 渴望成熟可靠的实施;(d) 没有尺寸或重量限制,因为这是一个服务器应用程序,而不是嵌入式客户端。API 的优先级要低得多,所以虽然我很欣赏 JSoup 的 CSS 选择器(如 API),但其他问题 (a) 到 (d) 会覆盖它。
谢谢你。
java - java - org.htmlparser.Parser ,需要得到h3之间的什么
htmlparser.Parser,我有 html 的片段(见下文),我需要在我的文件中获取一堆这些容器 div 的内容,其中包含 unqiue id。我可以得到 div 和它们的内部 html 就好了。我不知道如何获取 H3 标签之间的内容
这段代码适用于 div,但不适用于 h3:如果找到具有正确 ID 的 h3,我就是不知道如何获取 innerHTML 或标签之间的内容。
谢谢你的帮助
这会找到它,但不会返回 h3 之间的数据