问题标签 [html-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 问题

0 投票

6 回答

19361 浏览

regex - 如何从 ColdFusion 字符串中清除 HTML 标签？

我正在寻找一种从 ColdFusion 字符串中解析 HTML 标签的快速方法。我们正在提取一个 RSS 提要，其中可能包含任何内容。然后我们对信息进行一些操作，然后将其吐回另一个地方。目前我们正在使用正则表达式来执行此操作。有一个更好的方法吗？

我们正在使用 ColdFusion 8。

2009-06-09T15:31:27.757

0 投票

1 回答

538 浏览

java - 如何解析html和css来理解页面的布局（java）

我需要设法解析 html 和 css 布局，以便能够将其转换为能够理解简单 html 的属性语言，每个 html 元素上都有内联 css 我如何处理这样的任务？

java translation html-parsing

2009-06-21T13:19:15.663

0 投票

4 回答

580 浏览

javascript - 什么正则表达式会匹配这些数据？

我在 XHTML 文档中有以下内容：

我正在尝试选择两个脚本标签之间的所有内容。如果有帮助，id则将始终是 JSBALLOONS。我知道如何选择包括脚本标签的内容，但我不知道如何选择不包括脚本标签的内容。正则表达式的结果应该是：

javascript regex parsing xhtml html-parsing

2009-06-23T18:04:57.330

0 投票

10 回答

27086 浏览

jquery - 使用 jQuery 解析远程内容的最佳实践是什么？

在 jQuery ajax 调用检索整个 XHTML 文档之后，从结果字符串中选择特定元素的最佳方法是什么？也许有一个库或插件可以解决这个问题？

jQuery 只能选择存在于字符串中的 XHTML 元素，前提是它们通常在 W3C 规范中的 div 中被允许；因此，我对选择 , 和之类的东西<title>很<script>好奇<style>。

根据 jQuery 文档：

http://docs.jquery.com/Core/jQuery#htmlownerDocument

HTML 字符串不能包含在 div 中无效的元素，例如 html、head、body 或 title 元素。

因此，既然我们已经确定 jQuery 不提供这样做的方法，那么我将如何选择这些元素呢？例如，如果您能告诉我如何选择远程页面的标题，那就太好了！

谢谢，皮特

jquery html-parsing

2009-06-23T20:10:57.013

0 投票

3 回答

932 浏览

java - java解析html + css并将输出转换为不同的语言

我需要了解html + css文件并将其转换为java中的rtflayot之类的东西现在我知道我需要某种html解析器但是我需要从那里做什么？我如何实现 html-css 转换器？这些工作有某种模式或方法吗？

java html-parsing converter

2009-06-25T19:47:57.570

0 投票

5 回答

6441 浏览

c# - XSLT 或 Linq to XML 的优势

在 C# 中使用 XSLT 或 Linq to XML 进行 HTML 解析有什么优势？这是假设 html 已被清理，因此它是有效的 xhtml。这些值最终将进入 ac# 对象进行验证和处理。

请让我知道这些是否有效以及是否还有其他需要考虑的事项。

XSLT 优点：

易于快速更改和部署
比较有名

XSLT 缺点：

未编译，因此处理速度较慢
字符串操作可能很麻烦
最后进入 C# 对象将更具挑战性

Linq to XML 优点：

已编译，因此运行速度更快
允许更好的字符串操作

Linq to XML 缺点：

必须编译更新

编辑：我应该澄清一下，我希望这些能够长期运行，并且网站可能会不时更新它们的布局。这是我认为我会使用不需要编译的东西的更大原因之一。

c#xslt linq-to-xml html-parsing

2009-06-30T22:13:52.667

0 投票

5 回答

13647 浏览

php - php 正则表达式从 HTML 表中提取数据

我正在尝试制作一个正则表达式来从表中取出一些数据。

我现在得到的代码是：

我想替换为：

引用1：你有没有反复尝试过？

引用65：你不会偷警察的头盔

我已经写的代码是这样的：

但现在我被困住了。

php html regex html-parsing

2009-07-19T20:14:25.853

0 投票

1 回答

487 浏览

python - lxml 使用 cssselector 检索奇数项目

在我的测试文档中，我有几个标记为“item”的类，目前我正在使用以下内容来解析带有此类的 html 文件中的所有内容

我希望它选择所有奇怪的项目，就像在 javascript 中使用 JQuery

逐字尝试我收到以下错误

lxml.cssselect.ExpressionError：伪类符号（u'odd'，6）未知

我知道我自己实现这将是微不足道的，我想知道这是否由 lxml 本机支持。

python css html-parsing lxml

2009-07-22T01:20:03.137

0 投票

3 回答

879 浏览

php - 如何使用 PHP 删除 HTML 页面中的一段 HTML 标签

我有一个情况。我使用这段代码使用 php 阅读了一个 html 页面$body = file_get_contents('index.htm');

现在在 index.htm 文件中有一段 html 代码，如下所示，我有时需要删除/取决于标准，所以有时需要删除，有时不需要。

如何使用PHP删除td标签之间的整个表格部分。

php html-parsing

2009-07-28T08:21:08.313

0 投票

3 回答

619 浏览

perl - 从其他 HTML 页面提取的 DIV 构建 HTML 页面的脚本

我有一组 HTML 报告，每个报告都包含两个具有特定 ID 的 DIV 元素，我需要将其剥离并编译成一个整体摘要报告（同样是一个 HTML 文件）。

我最初的想法是，这是 Perl 脚本的理想工作，但是我们没有最新的内部 Perl 技能（我们是一家 .NET C# 商店）。

欢迎对推荐方法提出想法和建议......

perl reporting html-parsing

2009-07-31T10:02:10.173

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parsing]

Reference