问题标签 [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1039 浏览

python - 如何使用 lxml 提取一些文本?

我想在某些网站中提取一些文本。这是我想提取一些文本来制作刮板的网址。 http://news.search.naver.com/search.naver?sm=tab_hty&where=news&query=times&x=0&y=0 在这个页面中,我想分别提取一些带有主题和内容字段的文本。例如,如果您打开该页面,您可以在页面中看到一些文本,

日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本,2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川

日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:18 在第22届东京电影节颁奖典礼上获悉,她凭借在法国电影导演夏比莫利亚执导的电影《八倍向上》中的角色获得了最佳女演员奖...

等等 ,,,,

最后我想提取诸如格式之类的文本

主题:日本东京国际电影节内容:EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本,2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川

主题:...内容:...

等等..如果有人帮助,真的很感激。提前致谢。

0 投票
1 回答
184 浏览

django - 如何使用 lxml 从网站获取消息?

在exam.com 上与天气无关:

我想使用Django 1.1lxml在网站上获取信息。我只想获取“25”的信息。

HTMLexam.com 结构如下:

我是学生。我正在和我的朋友们做一个小项目。请解释给我容易理解。非常感谢你!

0 投票
2 回答
872 浏览

xml - 如何从 XPath 中的标记中选择未知层数的节点?

例如,如果我有

如何组合一个返回输入 1,2 和 3 的查询?

编辑:我应该注意我对抓取页面上的所有输入元素不感兴趣,我只想要作为特定表单的子元素的所有输入元素,所以“//”就出来了。

0 投票
1 回答
320 浏览

python - Python 2.6.x 的 XML/XSL 库的选择

目前我有 2 个变种,LXMLlibXML2,它们似乎都可以工作。我已经尝试对两者进行基准测试,特别是用于将内存字符串和文件解析为 XML 并导入 XSLT 样式表并应用它们。虽然纯基于性能的测试表明 LXML 是最重要的(特别是应用样式表),但 libxml2 似乎已被用作许多其他语言的事实上的标准。此外,在解析 LXML 的过程中,实体替换似乎有些困难。

我的问题主要是:有没有人在生产中成功使用过 LXML,你的印象是什么?

0 投票
1 回答
1535 浏览

python - Lxml html xpath 上下文

我正在使用 lxml 解析 HTML 文件,我想知道如何设置contextxpath 搜索。我的意思是我有一个节点元素,并且只想在这个节点内进行 xpath 搜索,就好像它是根节点一样。例如,我有一个表单节点,xpath 搜索//input只返回给定表单的输入,而不是页面上所有表单的所有输入。我怎样才能做到这一点?我在这里xpath context找到了一些文档,但这似乎不是我想要的。

0 投票
3 回答
4514 浏览

python - lxml 是否可以以不区分大小写的方式工作?

我正在尝试从任意网站上抓取 META 关键字和描述标签。我显然无法控制上述网站,所以必须接受我所得到的。它们有各种标签和属性的大小写,这意味着我需要不区分大小写。我无法相信 lxml 作者会固执地坚持完全强制标准合规性,因为它排除了对其库的大部分使用。

我想能够说doc.cssselect('meta[name=description]')(或某些 XPath 等效项),但这不会捕获<meta name="Description" Content="...">由于其他大写字母 D 的标签。

我目前正在使用它作为解决方法,但这太可怕了!

似乎标签名称meta不区分大小写,但属性不是。meta如果区分大小写,那就更烦人了!

0 投票
3 回答
1687 浏览

python - 使用 lxml 将 XML 片段作为样式表参数传递?

我开始lxml在 Python 中使用来处理 XML/XSL 文档,而且总的来说它看起来非常简单。但是,在进行翻译时,我找不到将 XML 片段作为样式表参数传递的方法。

例如,在 PHP 中,可以将DOMDocumentXML 片段作为样式表参数传递,这样就可以在样式表中使用复杂的参数:

这将导致:

如何使用 来完成此操作lxml

0 投票
1 回答
895 浏览

python - 有没有办法用 lxml 解析 html,但用 minidom 操作它?

我有一个应用程序,我一直在使用 html5lib 来自由解析 html。我使用 minidom 接口,因为我需要一个真正的 DOM API,而 ElementTree 不适合我正在做的事情。

这是我如何做到这一点:

但是,解析大文件正在成为性能瓶颈,lxml 解析比 html5lib 快大约 80 倍(我对其进行了基准测试)。

如何使用 lxml 或类似快速的 bad-html 容错库进行解析,并使用与 DOM 兼容的 API 进行操作?

0 投票
2 回答
8448 浏览

python - 用 lxml.html 替换元素

作为一个整体,我对 lxml 和 HTML 解析器相当陌生。我想知道是否有办法用另一个元素替换树中的元素......

例如我有:

我想按照这些思路做一些事情,但这会导致“TypeError”,因为“hilited”不是 lxml.etree._Element。

这可行吗?

问候,

0 投票
4 回答
1182 浏览

python - Python:从 XML 文件中提取 HTML

我的 XML 文件如下所示:

我想在维护内部标签的同时提取每个 <string> 的内容。也就是说,我希望看到以下 Python 字符串:u"Bla <b>One & Two</b> Foo"。或者,我想我可以选择 u"Bla <b>One & Two</b> Foo",然后尝试自己替换实体。

我目前正在使用 lxml,它允许我迭代嵌套标签,错过不在标签内的文本,或者在所有文本内容(itertext)上,丢失标签信息。我可能错过了一些东西。

如果可能的话,我更愿意保留 lxml,但如果需要,我可以切换到另一个库。