问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 如何从 ColdFusion 字符串中清除 HTML 标签?
我正在寻找一种从 ColdFusion 字符串中解析 HTML 标签的快速方法。我们正在提取一个 RSS 提要,其中可能包含任何内容。然后我们对信息进行一些操作,然后将其吐回另一个地方。目前我们正在使用正则表达式来执行此操作。有一个更好的方法吗?
我们正在使用 ColdFusion 8。
java - 如何解析html和css来理解页面的布局(java)
我需要设法解析 html 和 css 布局,以便能够将其转换为能够理解简单 html 的属性语言,每个 html 元素上都有内联 css 我如何处理这样的任务?
javascript - 什么正则表达式会匹配这些数据?
我在 XHTML 文档中有以下内容:
我正在尝试选择两个脚本标签之间的所有内容。如果有帮助,id
则将始终是 JSBALLOONS。我知道如何选择包括脚本标签的内容,但我不知道如何选择不包括脚本标签的内容。正则表达式的结果应该是:
jquery - 使用 jQuery 解析远程内容的最佳实践是什么?
在 jQuery ajax 调用检索整个 XHTML 文档之后,从结果字符串中选择特定元素的最佳方法是什么?也许有一个库或插件可以解决这个问题?
jQuery 只能选择存在于字符串中的 XHTML 元素,前提是它们通常在 W3C 规范中的 div 中被允许;因此,我对选择 , 和 之类的东西<title>
很<script>
好奇<style>
。
根据 jQuery 文档:
http://docs.jquery.com/Core/jQuery#htmlownerDocument
HTML 字符串不能包含在 div 中无效的元素,例如 html、head、body 或 title 元素。
因此,既然我们已经确定 jQuery 不提供这样做的方法,那么我将如何选择这些元素呢?例如,如果您能告诉我如何选择远程页面的标题,那就太好了!
谢谢,皮特
java - java解析html + css并将输出转换为不同的语言
我需要了解html + css文件并将其转换为java中的rtflayot之类的东西现在我知道我需要某种html解析器但是我需要从那里做什么?我如何实现 html-css 转换器?这些工作有某种模式或方法吗?
c# - XSLT 或 Linq to XML 的优势
在 C# 中使用 XSLT 或 Linq to XML 进行 HTML 解析有什么优势?这是假设 html 已被清理,因此它是有效的 xhtml。这些值最终将进入 ac# 对象进行验证和处理。
请让我知道这些是否有效以及是否还有其他需要考虑的事项。
XSLT 优点:
- 易于快速更改和部署
- 比较有名
XSLT 缺点:
- 未编译,因此处理速度较慢
- 字符串操作可能很麻烦
- 最后进入 C# 对象将更具挑战性
Linq to XML 优点:
- 已编译,因此运行速度更快
- 允许更好的字符串操作
Linq to XML 缺点:
- 必须编译更新
编辑:我应该澄清一下,我希望这些能够长期运行,并且网站可能会不时更新它们的布局。这是我认为我会使用不需要编译的东西的更大原因之一。
php - php 正则表达式从 HTML 表中提取数据
我正在尝试制作一个正则表达式来从表中取出一些数据。
我现在得到的代码是:
我想替换为:
引用1:你有没有反复尝试过?
引用65:你不会偷警察的头盔
我已经写的代码是这样的:
但现在我被困住了。
python - lxml 使用 cssselector 检索奇数项目
在我的测试文档中,我有几个标记为“item”的类,目前我正在使用以下内容来解析带有此类的 html 文件中的所有内容
我希望它选择所有奇怪的项目,就像在 javascript 中使用 JQuery
逐字尝试我收到以下错误
lxml.cssselect.ExpressionError:伪类符号(u'odd',6)未知
我知道我自己实现这将是微不足道的,我想知道这是否由 lxml 本机支持。
php - 如何使用 PHP 删除 HTML 页面中的一段 HTML 标签
我有一个情况。我使用这段代码使用 php 阅读了一个 html 页面$body = file_get_contents('index.htm');
现在在 index.htm 文件中有一段 html 代码,如下所示,我有时需要删除/取决于标准,所以有时需要删除,有时不需要。
如何使用PHP删除td标签之间的整个表格部分。
perl - 从其他 HTML 页面提取的 DIV 构建 HTML 页面的脚本
我有一组 HTML 报告,每个报告都包含两个具有特定 ID 的 DIV 元素,我需要将其剥离并编译成一个整体摘要报告(同样是一个 HTML 文件)。
我最初的想法是,这是 Perl 脚本的理想工作,但是我们没有最新的内部 Perl 技能(我们是一家 .NET C# 商店)。
欢迎对推荐方法提出想法和建议......