问题标签 [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
15264 浏览

python - 如何将命名空间添加到lxml中的属性

我正在尝试使用 python 和 lxml 创建一个看起来像这样的 xml 条目:

我正在使用python和lxml。我的adlcp:scormtype属性有问题。我是xml新手,如果我错了,请纠正我。 adlcp是一个命名空间,scormtype是一个在 adlcp 命名空间中定义的属性,对吧?
我什至不确定这是否是正确的问题,但是......我的问题是,如何使用 lxml 从非默认命名空间向元素添加属性?如果这是一个微不足道的问题,我提前道歉。

0 投票
1 回答
2335 浏览

python - lxml相当于BeautifulSoup“OR”语法?

我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法:

基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典,甚至是正则表达式来执行匹配。

lxml 等价物是什么?

谢谢!

0 投票
4 回答
8867 浏览

python - 涉及带有属性的 HTML 标记的 Python 网页抓取

我正在尝试制作一个网络爬虫,它将解析出版物的网页并提取作者。网页的骨架结构如下:

到目前为止,我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务,但是我不确定如何处理这两个 div 标签和 td 标签,因为它们具有属性。除此之外,我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办?

目前,我的代码如下所示:

我意识到很多导入语句可能是多余的,但我只是复制了我目前在更多源文件中的任何内容。

编辑:我想我并没有说得很清楚,但是我在页面中有多个要抓取的标签。

0 投票
1 回答
292 浏览

python - lxml中属性和样式标签的区别

使用 BeautifulSoup 后,我正在尝试学习 lxml。但是,总的来说,我不是一个强大的程序员。

我在一些源 html 中有以下代码:

因为文本是粗体的,所以我想拉那个文本。我似乎无法区分该特定行是粗体的。

当我今晚开始这项工作时,我正在处理一个在样式属性中包含粗体字的文档,如下所示:

我应该说我正在使用的文档是我在行中阅读的一个片段,将这些行连接在一起,然后使用 html.fromstring 函数

所以我上面的第一行 htm 代码是 newHTM[19]

嗯,这似乎让我更接近

我还没有完全理解,但这里是解决方案:

0 投票
2 回答
2270 浏览

python - 无法安装 lxml(python 2.6.3、osx 10.6 雪豹)

我试着:

easy_install lxml

我得到这个错误:

文件“build/bdist.macosx-10.3-fat/egg/setuptools/command/build_ext.py”,第 85 行,在 get_ext_filename KeyError: 'etree'

任何提示?

0 投票
1 回答
19580 浏览

python - 如何查看 lxml 元素的文本表示?

如果我使用 lxml 解析 XML 文档,是否可以查看元素的文本表示?我试着做:

但这输出

我可以使用什么来查看 XML 文件中存在的节点?有to_xml什么方法吗?

0 投票
2 回答
1327 浏览

java - Clojure 相当于 Python 的 lxml 库?

我正在寻找与 Python 的 lxml 库等效的 Clojure/Java。

过去我曾大量使用它来解析各种 html(作为 BeautifulSoup 的替代品),能够对 xml 使用相同的 elementtree api 真是太好了——真的是一个值得信赖的朋友!谁能推荐一个类似的 Java/Clojure 库?

关于 lxml

lxml 是一个基于 libxml2 的 xml 和 html 处理库。它可以很好地处理损坏的 html 页面,因此非常适合屏幕抓取任务。它还实现了 ElementTree api,因此 xml/html 结构被表示为一个树对象,完全支持 xpath 和 css 选择器等。

它还具有一些非常方便的实用功能,例如“清洁器”模块,该模块将从“汤”中去除不需要的标签(即脚本标签、样式标签等)。

因此,它使用简单、功能强大且速度非常快......!

0 投票
4 回答
38625 浏览

python - 如何获取lxml中元素的路径?

我正在使用 python 中的 lxml 中的 XPath 在 HTML 文档中搜索。如何获得某个元素的路径?这是来自 ruby​​ nokogiri 的示例:

打印例如' /html/body/div/div[1]/div[1]/p/text()[1] '这是我想在python中得到的字符串。

0 投票
2 回答
11662 浏览

python - python、lxml 和 xpath - html 表解析

我是 lxml 新手,对 python 很陌生,找不到以下解决方案:

我需要导入一些具有 3 列和未定义行数的表,从第 3 行开始。

当任何行的第二列为空时,该行被丢弃并且表的处理被中止。

以下代码可以很好地打印表的数据(但之后我无法重用数据):

这只打印第一列:(

以下只导入第三行,不导入后续

任何人都知道一个奇特的解决方案,将第 3 行的所有数据放入 tbl 并将其复制到一个数组中,以便可以将其处理成一个不依赖 lxml 的模块?

提前感谢您的帮助,亚历克斯

0 投票
2 回答
2077 浏览

python - 奇怪的 lxml 行为

考虑以下代码段:

我期待看到'<div><br />Hello text</div>',因为br不能有嵌套文本并且是“自我封闭的”(我的意思是/>)。如何lxml正确处理?