问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
19361 浏览

regex - 如何从 ColdFusion 字符串中清除 HTML 标签?

我正在寻找一种从 ColdFusion 字符串中解析 HTML 标签的快速方法。我们正在提取一个 RSS 提要,其中可能包含任何内容。然后我们对信息进行一些操作,然后将其吐回另一个地方。目前我们正在使用正则表达式来执行此操作。有一个更好的方法吗?

我们正在使用 ColdFusion 8。

0 投票
1 回答
538 浏览

java - 如何解析html和css来理解页面的布局(java)

我需要设法解析 html 和 css 布局,以便能够将其转换为能够理解简单 html 的属性语言,每个 html 元素上都有内联 css 我如何处理这样的任务?

0 投票
4 回答
580 浏览

javascript - 什么正则表达式会匹配这些数据?

我在 XHTML 文档中有以下内容:

我正在尝试选择两个脚本标签之间的所有内容。如果有帮助,id则将始终是 JSBALLOONS。我知道如何选择包括脚本标签的内容,但我不知道如何选择不包括脚本标签的内容。正则表达式的结果应该是:

0 投票
10 回答
27086 浏览

jquery - 使用 jQuery 解析远程内容的最佳实践是什么?

在 jQuery ajax 调用检索整个 XHTML 文档之后,从结果字符串中选择特定元素的最佳方法是什么?也许有一个库或插件可以解决这个问题?

jQuery 只能选择存在于字符串中的 XHTML 元素,前提是它们通常在 W3C 规范中的 div 中被允许;因此,我对选择 , 和 之类的东西<title><script>好奇<style>

根据 jQuery 文档:

http://docs.jquery.com/Core/jQuery#htmlownerDocument

HTML 字符串不能包含在 div 中无效的元素,例如 html、head、body 或 title 元素。

因此,既然我们已经确定 jQuery 不提供这样做的方法,那么我将如何选择这些元素呢?例如,如果您能告诉我如何选择远程页面的标题,那就太好了!

谢谢,皮特

0 投票
3 回答
932 浏览

java - java解析html + css并将输出转换为不同的语言

我需要了解html + css文件并将其转换为java中的rtflayot之类的东西现在我知道我需要某种html解析器但是我需要从那里做什么?我如何实现 html-css 转换器?这些工作有某种模式或方法吗?

0 投票
5 回答
6441 浏览

c# - XSLT 或 Linq to XML 的优势

在 C# 中使用 XSLT 或 Linq to XML 进行 HTML 解析有什么优势?这是假设 html 已被清理,因此它是有效的 xhtml。这些值最终将进入 ac# 对象进行验证和处理。

请让我知道这些是否有效以及是否还有其他需要考虑的事项。

XSLT 优点:

  • 易于快速更改和部署
  • 比较有名

XSLT 缺点:

  • 未编译,因此处理速度较慢
  • 字符串操作可能很麻烦
  • 最后进入 C# 对象将更具挑战性

Linq to XML 优点:

  • 已编译,因此运行速度更快
  • 允许更好的字符串操作

Linq to XML 缺点:

  • 必须编译更新

编辑:我应该澄清一下,我希望这些能够长期运行,并且网站可能会不时更新它们的布局。这是我认为我会使用不需要编译的东西的更大原因之一。

0 投票
5 回答
13647 浏览

php - php 正则表达式从 HTML 表中提取数据

我正在尝试制作一个正则表达式来从表中取出一些数据。

我现在得到的代码是:

我想替换为:

引用1:你有没有反复尝试过?

引用65:你不会偷警察的头盔

我已经写的代码是这样的:

但现在我被困住了。

0 投票
1 回答
487 浏览

python - lxml 使用 cssselector 检索奇数项目

在我的测试文档中,我有几个标记为“item”的类,目前我正在使用以下内容来解析带有此类的 html 文件中的所有内容

我希望它选择所有奇怪的项目,就像在 javascript 中使用 JQuery

逐字尝试我收到以下错误

lxml.cssselect.ExpressionError:伪类符号(u'odd',6)未知

我知道我自己实现这将是微不足道的,我想知道这是否由 lxml 本机支持。

0 投票
3 回答
879 浏览

php - 如何使用 PHP 删除 HTML 页面中的一段 HTML 标签

我有一个情况。我使用这段代码使用 php 阅读了一个 html 页面$body = file_get_contents('index.htm');

现在在 index.htm 文件中有一段 html 代码,如下所示,我有时需要删除/取决于标准,所以有时需要删除,有时不需要。

如何使用PHP删除td标签之间的整个表格部分。

0 投票
3 回答
619 浏览

perl - 从其他 HTML 页面提取的 DIV 构建 HTML 页面的脚本

我有一组 HTML 报告,每个报告都包含两个具有特定 ID 的 DIV 元素,我需要将其剥离并编译成一个整体摘要报告(同样是一个 HTML 文件)。

我最初的想法是,这是 Perl 脚本的理想工作,但是我们没有最新的内部 Perl 技能(我们是一家 .NET C# 商店)。

欢迎对推荐方法提出想法和建议......