问题标签 [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将命名空间添加到lxml中的属性
我正在尝试使用 python 和 lxml 创建一个看起来像这样的 xml 条目:
我正在使用python和lxml。我的adlcp:scormtype
属性有问题。我是xml新手,如果我错了,请纠正我。 adlcp
是一个命名空间,scormtype
是一个在 adlcp 命名空间中定义的属性,对吧?
我什至不确定这是否是正确的问题,但是......我的问题是,如何使用 lxml 从非默认命名空间向元素添加属性?如果这是一个微不足道的问题,我提前道歉。
python - lxml相当于BeautifulSoup“OR”语法?
我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法:
基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典,甚至是正则表达式来执行匹配。
lxml 等价物是什么?
谢谢!
python - 涉及带有属性的 HTML 标记的 Python 网页抓取
我正在尝试制作一个网络爬虫,它将解析出版物的网页并提取作者。网页的骨架结构如下:
到目前为止,我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务,但是我不确定如何处理这两个 div 标签和 td 标签,因为它们具有属性。除此之外,我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办?
目前,我的代码如下所示:
我意识到很多导入语句可能是多余的,但我只是复制了我目前在更多源文件中的任何内容。
编辑:我想我并没有说得很清楚,但是我在页面中有多个要抓取的标签。
python - lxml中属性和样式标签的区别
使用 BeautifulSoup 后,我正在尝试学习 lxml。但是,总的来说,我不是一个强大的程序员。
我在一些源 html 中有以下代码:
因为文本是粗体的,所以我想拉那个文本。我似乎无法区分该特定行是粗体的。
当我今晚开始这项工作时,我正在处理一个在样式属性中包含粗体字的文档,如下所示:
我应该说我正在使用的文档是我在行中阅读的一个片段,将这些行连接在一起,然后使用 html.fromstring 函数
所以我上面的第一行 htm 代码是 newHTM[19]
嗯,这似乎让我更接近
我还没有完全理解,但这里是解决方案:
python - 无法安装 lxml(python 2.6.3、osx 10.6 雪豹)
我试着:
easy_install lxml
我得到这个错误:
文件“build/bdist.macosx-10.3-fat/egg/setuptools/command/build_ext.py”,第 85 行,在 get_ext_filename KeyError: 'etree'
任何提示?
python - 如何查看 lxml 元素的文本表示?
如果我使用 lxml 解析 XML 文档,是否可以查看元素的文本表示?我试着做:
但这输出
我可以使用什么来查看 XML 文件中存在的节点?有to_xml
什么方法吗?
java - Clojure 相当于 Python 的 lxml 库?
我正在寻找与 Python 的 lxml 库等效的 Clojure/Java。
过去我曾大量使用它来解析各种 html(作为 BeautifulSoup 的替代品),能够对 xml 使用相同的 elementtree api 真是太好了——真的是一个值得信赖的朋友!谁能推荐一个类似的 Java/Clojure 库?
关于 lxml
lxml 是一个基于 libxml2 的 xml 和 html 处理库。它可以很好地处理损坏的 html 页面,因此非常适合屏幕抓取任务。它还实现了 ElementTree api,因此 xml/html 结构被表示为一个树对象,完全支持 xpath 和 css 选择器等。
它还具有一些非常方便的实用功能,例如“清洁器”模块,该模块将从“汤”中去除不需要的标签(即脚本标签、样式标签等)。
因此,它使用简单、功能强大且速度非常快......!
python - 如何获取lxml中元素的路径?
我正在使用 python 中的 lxml 中的 XPath 在 HTML 文档中搜索。如何获得某个元素的路径?这是来自 ruby nokogiri 的示例:
打印例如' /html/body/div/div[1]/div[1]/p/text()[1] '这是我想在python中得到的字符串。
python - python、lxml 和 xpath - html 表解析
我是 lxml 新手,对 python 很陌生,找不到以下解决方案:
我需要导入一些具有 3 列和未定义行数的表,从第 3 行开始。
当任何行的第二列为空时,该行被丢弃并且表的处理被中止。
以下代码可以很好地打印表的数据(但之后我无法重用数据):
这只打印第一列:(
以下只导入第三行,不导入后续
任何人都知道一个奇特的解决方案,将第 3 行的所有数据放入 tbl 并将其复制到一个数组中,以便可以将其处理成一个不依赖 lxml 的模块?
提前感谢您的帮助,亚历克斯
python - 奇怪的 lxml 行为
考虑以下代码段:
我期待看到'<div><br />Hello text</div>'
,因为br
不能有嵌套文本并且是“自我封闭的”(我的意思是/>
)。如何lxml
正确处理?