问题标签 [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 lxml 提取一些文本?
我想在某些网站中提取一些文本。这是我想提取一些文本来制作刮板的网址。 http://news.search.naver.com/search.naver?sm=tab_hty&where=news&query=times&x=0&y=0 在这个页面中,我想分别提取一些带有主题和内容字段的文本。例如,如果您打开该页面,您可以在页面中看到一些文本,
日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本,2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川
日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:18 在第22届东京电影节颁奖典礼上获悉,她凭借在法国电影导演夏比莫利亚执导的电影《八倍向上》中的角色获得了最佳女演员奖...
等等 ,,,,
最后我想提取诸如格式之类的文本
主题:日本东京国际电影节内容:EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本,2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川
主题:...内容:...
等等..如果有人帮助,真的很感激。提前致谢。
django - 如何使用 lxml 从网站获取消息?
在exam.com 上与天气无关:
我想使用Django 1.1和lxml在网站上获取信息。我只想获取“25”的信息。
HTMLexam.com 结构如下:
我是学生。我正在和我的朋友们做一个小项目。请解释给我容易理解。非常感谢你!
xml - 如何从 XPath 中的标记中选择未知层数的节点?
例如,如果我有
如何组合一个返回输入 1,2 和 3 的查询?
编辑:我应该注意我对抓取页面上的所有输入元素不感兴趣,我只想要作为特定表单的子元素的所有输入元素,所以“//”就出来了。
python - Lxml html xpath 上下文
我正在使用 lxml 解析 HTML 文件,我想知道如何设置context
xpath 搜索。我的意思是我有一个节点元素,并且只想在这个节点内进行 xpath 搜索,就好像它是根节点一样。例如,我有一个表单节点,xpath 搜索//input
只返回给定表单的输入,而不是页面上所有表单的所有输入。我怎样才能做到这一点?我在这里xpath context
找到了一些文档,但这似乎不是我想要的。
python - lxml 是否可以以不区分大小写的方式工作?
我正在尝试从任意网站上抓取 META 关键字和描述标签。我显然无法控制上述网站,所以必须接受我所得到的。它们有各种标签和属性的大小写,这意味着我需要不区分大小写。我无法相信 lxml 作者会固执地坚持完全强制标准合规性,因为它排除了对其库的大部分使用。
我想能够说doc.cssselect('meta[name=description]')
(或某些 XPath 等效项),但这不会捕获<meta name="Description" Content="...">
由于其他大写字母 D 的标签。
我目前正在使用它作为解决方法,但这太可怕了!
似乎标签名称meta
不区分大小写,但属性不是。meta
如果区分大小写,那就更烦人了!
python - 使用 lxml 将 XML 片段作为样式表参数传递?
我开始lxml
在 Python 中使用来处理 XML/XSL 文档,而且总的来说它看起来非常简单。但是,在进行翻译时,我找不到将 XML 片段作为样式表参数传递的方法。
例如,在 PHP 中,可以将DOMDocument
XML 片段作为样式表参数传递,这样就可以在样式表中使用复杂的参数:
这将导致:
如何使用 来完成此操作lxml
?
python - 有没有办法用 lxml 解析 html,但用 minidom 操作它?
我有一个应用程序,我一直在使用 html5lib 来自由解析 html。我使用 minidom 接口,因为我需要一个真正的 DOM API,而 ElementTree 不适合我正在做的事情。
这是我如何做到这一点:
但是,解析大文件正在成为性能瓶颈,lxml 解析比 html5lib 快大约 80 倍(我对其进行了基准测试)。
如何使用 lxml 或类似快速的 bad-html 容错库进行解析,并使用与 DOM 兼容的 API 进行操作?
python - 用 lxml.html 替换元素
作为一个整体,我对 lxml 和 HTML 解析器相当陌生。我想知道是否有办法用另一个元素替换树中的元素......
例如我有:
我想按照这些思路做一些事情,但这会导致“TypeError”,因为“hilited”不是 lxml.etree._Element。
这可行吗?
问候,
python - Python:从 XML 文件中提取 HTML
我的 XML 文件如下所示:
我想在维护内部标签的同时提取每个 <string> 的内容。也就是说,我希望看到以下 Python 字符串:u"Bla <b>One & Two</b> Foo"。或者,我想我可以选择 u"Bla <b>One & Two</b> Foo",然后尝试自己替换实体。
我目前正在使用 lxml,它允许我迭代嵌套标签,错过不在标签内的文本,或者在所有文本内容(itertext)上,丢失标签信息。我可能错过了一些东西。
如果可能的话,我更愿意保留 lxml,但如果需要,我可以切换到另一个库。