问题标签 [html-xml-utils]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
css-selectors - 根据“thead”提取HTML表格内容
这是一个基本的 HTML 表格:
假设源文件中有几个这样的表。是否有一个选项hxextract
,或者我可以使用的 CSS3 选择器hxselect
,或者其他一些工具,它允许提取一个特定的表,或者基于它的内容thead
或者它的类(如果它存在)?还是我坚持不那么简单awk
(或者可能是 perl,在提交之前发现)脚本?
更新:
对于基于内容的提取,perl 的HTML::TableExtract
诀窍:
然而,在某些情况下,一个简单的lynx -dump mywebpage.html
耦合awk
或任何方式都可以同样有效。
makefile - make[1]: exec(f77) 在 DragonFly BSD 上失败(没有这样的文件或目录)
尝试html-xml-utils-6.9
在 DragonFly BSD 上编译时出现此错误。有趣的是,grep -r f77
在源目录中做的时候,结果是空的。因此,在构建的 Makefile 之后没有这样的选项./configure
。
这是我的配置输出: http: //pastebin.com/4tKEXQKG
我试着做alias f77="gfortran48"
,但问题仍然存在。gfortran48
是一个已安装的编译器,我用man gfortran48
.
我的完整错误输出:
有任何想法吗?
相关线程:make:f77:没有这样的文件或目录
serialization - Groovy:在序列化 XMLSlurper 时保留属性的 CR/LF
我是 groovy 的新手(有几周的经验)。目前我正在尝试.vcproj
使用 groovy 处理一些 Visual Studio 文件:替换一些路径,这些路径将由正则表达式模式找到。这对我来说很好。
要将更改写入文件,我使用
方法,其中
和
这也可以正常工作,除了一件事。在原始vcproj
文件中,每个属性都在单独的行中,例如:
但是在调用类的serialize()
方法之后XMLUtil
,整个输出存储在一行中:
对于 XMS 解析器,这应该不是问题,但在后处理中,一些 perl 脚本使用此vcproj
文件,它们抱怨属性行中缺少 CR/LF。
那么是否有任何简单的可能性来配置XMLslurper
或序列化类以将 CR/LF 保持在每个属性之间?
python - 解析本地 HTML python (lxml)
我正在尝试使用 lxml 解析本地 HTML,但出现错误,但我不知道为什么(提前抱歉代码错误,我是新手)。
这是错误:
python - xml2csv 包错误“_IterParseIterator”对象没有属性“下一个”
我正在使用 xmlutils 包将 xml 文件转换为 csv。我的代码如下:
上面的代码工作正常。但是当我输入:
它显示以下错误:
我无法理解我做错了什么。我对这个包裹完全陌生。为什么我收到此错误?如果您可以建议任何其他将 xml 文件转换为 csv 的方法,这对我也有帮助。提前致谢。
html - html-xml-utils 获取特定值
我正在使用带有 html-xml-utils 的 Xubuntu 16.04.2
我试过这个命令
但它不起作用,它什么也不输出。html中大约有3-5个这样的表。
这样做会输出所有表格
但我只需要得到第一个孩子或第 n 个孩子(n),它似乎不能正常工作。
我试着<tr>
用这个在桌子上排第二
它会删除第二个之前的所有内容,<tr>
但也会打印它之后的所有内容。
我不确定我对使用 :first/nth-child(n) 有什么不理解。有人可以帮忙吗?谢谢
python - 在 Python 中解析 XML
我有一个很大的 XML 文件,我需要对其进行格式化以从其中的特定元素中获取一些所需的数据,并仅将所需的数据打印到另一个文件中。在 XML 文件中,我有许多文本标签,它们属于与 id 的不同对话,以及在作者标签之后有 id 的作者。我不需要所有作者的所有文本,只需要我有他们身份的特定作者。我如何编写一个函数来指定它只选择和写出作者 = id1 或 id2 或 id3.......等的对话?这是文件的样子……
css - hxselect 中忽略的中间选择器
我正在尝试使用html-xml-utils 7.4中的hxselect从网页中提取一些文本。据该男子称,hxselect 将接受以逗号分隔的 CSS 选择器列表。我有三个选择器:
代码在任何一个或两个选择器上都能正常执行。当我使用两个以上时,只有第一个和最后一个有任何效果。无论使用的选择器或选择器的数量如何,中间的似乎都被忽略了。
是我的错误还是hxselect?
bash - 如何使用 hxselect 生成数组结果?
我正在使用hxselect在 bash 中处理 HTML 文件。
在这个文件中,有多个用 '.row' 类定义的 div。
在 bash 中,我想将这些“行”提取到一个数组中。(div 是多行的,因此简单地逐行阅读是不合适的。)
有可能实现这一目标吗?(用基础工具,awk,grep等)
将行分配给数组后,我想进一步处理它:
谢谢!
xml - Vbscript / UFT如何获取标签元素名称以验证标签元素的Xpath
附加的 XML 示例,在附加的 XML 中,我想验证标签元素的存在,例如:PayloadList/IFXResp/IFX/GeneralStatus/StatusCode
如果有人可以帮助我获得上述 xpath 代码,那就太好了。在 vbscript/UFT 中查找代码以打印标记元素名称