问题标签 [html-parser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

204 问题

0 投票

1 回答

1080 浏览

android - Html.fromHtml 的替代品？

我正在尝试制作一个包含 TextView 元素的列表视图，每个元素都包含一个 SpannableString。这些 TextView 的内容是从 Html 标记中的 ArrayList 中获取的，并使用 Html.fromHtml 转换为 SpannableStrings。现在，Html.fromHtml 有很多性能问题。所以我尝试制作自己的 Html.fromHtml 版本

}

这是一个简单的基于 sax 的解析器。我这样做是受到 CommonsWare 先前回答的启发，有没有比 Html.fromHtml() 更快的方法将 html 字符解码为字符串？. 它具有最少的功能（粗体、斜体、下划线和中断）但即便如此，性能也没有提高。我有一些想法，比如将 textview 合成位图并将其缓存在内存中，并且在 listview 回收时不必再次重新渲染它。任何人都可以提出任何想法吗？..（请避免使用基于 NDK 的解决方案，因为我从未成功编译过它们，而且它增加了不必要的复杂性）

2014-10-22T08:18:57.273

0 投票

0 回答

648 浏览

python - 检索具有特定属性的标签之间的信息（Python HTMLParser）

我正在尝试从 HTML 页面信息中进行选择。我使用 python 和 HTMLParse 库。

我想获得价值，它包含在下一个 html 元素中：

即信息保存在标签“span”之间，但具有特定的属性类='相关'。

我面临的主要问题-如何检索具有特定属性的“跨度”部分之间的信息？据我了解，方法 handle_endtag() 只有标签（没有任何属性）。

所以，如果我有嵌套标签，我不能使用这种方法吗？

PS我看到了问题如何使用python HTMLParser库从特定的div标签中提取数据？，但这个问题不包括具有特定属性的嵌套标签。

python html-parsing html-parser

2014-10-30T10:20:07.653

0 投票

1 回答

852 浏览

java - 如何从 Jsoup 获取未格式化的 html

输出：

由于 JSoup 进行了格式化，textNodes 的值更改为包含换行符。

在测试用例中更改<inline>为似乎工作正常，但不幸的是，我们有包含由 redactor 生成的标签的遗留数据/html。<span><inline>

java html-parsing jsoup html-parser

2014-11-10T12:54:20.663

0 投票

1 回答

152 浏览

perl - 搜索和替换特定标签之间的内容

classname这在两个地方都替换了。如何将替换仅限于内容<body>？我希望看到它使用HTML::Parseror完成HTML::TreeBuilder。

perl html-parser

2014-11-25T08:35:43.200

0 投票

2 回答

474 浏览

textarea - 使用 Simpe HTML Dom 获取 Textarea 值

我使用 simple_html_dom.php

如果网站使用了错误标签，如何获取 textarea 值。

</textarea>textarea 标签在输入标签之前已经关闭。

Textarea HTML 如下所示：

当我使用这个功能时，我什么也得不到

如何使用 simple_html_dom.php 或其他替代方法获得“这是价值”？

谢谢

textarea simple-html-dom html-parser

2014-12-02T10:54:22.960

0 投票

1 回答

4045 浏览

php - 移动此文档的对象可在此处找到 php

我正在将我的网页重定向到另一个网址。它在本地主机上运行良好，但是当我将它托管到我的网络服务器时，它会给我一条消息，上面写着“对象已移动，此文档可能在此处找到”。我不知道这里的问题是我的代码。

请帮助我应该怎么做才能避免这个错误。谢谢

php html-parser

2014-12-02T11:58:53.877

0 投票

1 回答

7064 浏览

python - Python 3.4 的 HTMLParser

我有一些使用 HTMLParser 用 Python (2.7) 编写的代码。我目前正在使用 Python 3.4。

我找不到 HTMLParser 下载模块。

如果存在，谁能分享链接？如果没有，我该怎么办？

python html-parser

2014-12-06T19:49:42.687

0 投票

1 回答

65 浏览

python - 子类 _init_ 方法被忽略 - 执行直接跳转到超类 _init_

我正在使用 HTMLParser 来解析一些基本的、格式良好的 HTML，并且由于各种原因不想使用 BeautifulSoup。我对 HTMLParser 进行了子类化，实际的解析器工作正常。但是，没有调用子类的 init_ 方法。相反，当我创建一个新的子类对象时，会直接调用 HTMLParser 的 init 方法，而根本不会调用子类 init。当我从 HTMLParser.HTMLParser 以及 urllib.HTMLParser 继承时，就会发生这种情况。这是代码：

python initializer html-parser

2014-12-25T17:26:52.200

0 投票

3 回答

2861 浏览

python - python urllib取消引用损坏

如何让 urllib 仅取消引用有效的 % 编码字符串？

结果是

urllib unquote '%20' to ' '，但它也错误地 unquote '%ed' to '�'

HTMLParser 可以转义 '&' 到 '&'，但它不能将 '%20' 转换为 ' '

- - - - - - - 编辑 - - -

我很抱歉没有很好地解释我的问题，事实上我有很多字符串要处理，有些是 URL，有些不是。原始字符串是Time-@#*%ed，我将字符串设置Time-@#*%ed%20&为包含这两种情况。事实证明，很难在一行代码中处理这两种情况。阅读答案后，我编写了自己的函数

python urllib2 urllib html-parser

2015-01-05T06:11:00.333

0 投票

0 回答

279 浏览

java - Neko 解析器正在剥离
解析 HTML 字符串时的标记

我有一个要转换为 DocumentFragment 的字符串。问题是孩子<ul><li>... </li></ul>们被完全剥夺了。我不知道为什么会这样。

我需要添加或更新任何配置吗？

输入

输出如下

我不知道为什么会这样。

Java程序

创建 DocumentFragment 对象。

序列化函数

java html parsing html-parser

2015-01-06T00:54:57.360

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parser]

Reference