问题标签 [html-xml-utils]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1249 浏览

css-selectors - 根据“thead”提取HTML表格内容

这是一个基本的 HTML 表格:

假设源文件中有几个这样的表。是否有一个选项hxextract,或者我可以使用的 CSS3 选择器hxselect,或者其他一些工具,它允许提取一个特定的表,或者基于它的内容thead或者它的类(如果它存在)?还是我坚持不那么简单awk(或者可能是 perl,在提交之前发现)脚本?

更新: 对于基于内容的提取,perl 的HTML::TableExtract诀窍:

然而,在某些情况下,一个简单的lynx -dump mywebpage.html耦合awk或任何方式都可以同样有效。

0 投票
2 回答
791 浏览

makefile - make[1]: exec(f77) 在 DragonFly BSD 上失败(没有这样的文件或目录)

尝试html-xml-utils-6.9在 DragonFly BSD 上编译时出现此错误。有趣的是,grep -r f77在源目录中做的时候,结果是空的。因此,在构建的 Makefile 之后没有这样的选项./configure

这是我的配置输出: http: //pastebin.com/4tKEXQKG

我试着做alias f77="gfortran48",但问题仍然存在。gfortran48是一个已安装的编译器,我用man gfortran48.

我的完整错误输出:

有任何想法吗?

相关线程:make:f77:没有这样的文件或目录

0 投票
1 回答
511 浏览

serialization - Groovy:在序列化 XMLSlurper 时保留属性的 CR/LF

我是 groovy 的新手(有几周的经验)。目前我正在尝试.vcproj使用 groovy 处理一些 Visual Studio 文件:替换一些路径,这些路径将由正则表达式模式找到。这对我来说很好。

要将更改写入文件,我使用

方法,其中

这也可以正常工作,除了一件事。在原始vcproj文件中,每个属性都在单独的行中,例如:

但是在调用类的serialize()方法之后XMLUtil,整个输出存储在一行中:

对于 XMS 解析器,这应该不是问题,但在后处理中,一些 perl 脚本使用此vcproj文件,它们抱怨属性行中缺少 CR/LF。

那么是否有任何简单的可能性来配置XMLslurper或序列化类以将 CR/LF 保持在每个属性之间?

0 投票
1 回答
3186 浏览

python - 解析本地 HTML python (lxml)

我正在尝试使用 lxml 解析本地 HTML,但出现错误,但我不知道为什么(提前抱歉代码错误,我是新手)。

这是错误:

0 投票
1 回答
3165 浏览

python - xml2csv 包错误“_IterParseIterator”对象没有属性“下一个”

我正在使用 xmlutils 包将 xml 文件转换为 csv。我的代码如下:

上面的代码工作正常。但是当我输入:

它显示以下错误:

我无法理解我做错了什么。我对这个包裹完全陌生。为什么我收到此错误?如果您可以建议任何其他将 xml 文件转换为 csv 的方法,这对我也有帮助。提前致谢。

0 投票
1 回答
521 浏览

html - html-xml-utils 获取特定值

我正在使用带有 html-xml-utils 的 Xubuntu 16.04.2

我试过这个命令

但它不起作用,它什么也不输出。html中大约有3-5个这样的表。

这样做会输出所有表格

但我只需要得到第一个孩子或第 n 个孩子(n),它似乎不能正常工作。

我试着<tr>用这个在桌子上排第二

它会删除第二个之前的所有内容,<tr>但也会打印它之后的所有内容。

我不确定我对使用 :first/nth-child(n) 有什么不理解。有人可以帮忙吗?谢谢

0 投票
1 回答
228 浏览

python - 在 Python 中解析 XML

我有一个很大的 XML 文件,我需要对其进行格式化以从其中的特定元素中获取一些所需的数据,并仅将所需的数据打印到另一个文件中。在 XML 文件中,我有许多文本标签,它们属于与 id 的不同对话,以及在作者标签之后有 id 的作者。我不需要所有作者的所有文本,只需要我有他们身份的特定作者。我如何编写一个函数来指定它只选择和写出作者 = id1 或 id2 或 id3.......等的对话?这是文件的样子……

0 投票
1 回答
251 浏览

css - hxselect 中忽略的中间选择器

我正在尝试使用html-xml-utils 7.4中的hxselect从网页中提取一些文本。据该男子称,hxselect 将接受以逗号分隔的 CSS 选择器列表。我有三个选择器:

代码在任何一个或两个选择器上都能正常执行。当我使用两个以上时,只有第一个和最后一个有任何效果。无论使用的选择器或选择器的数量如何,中间的似乎都被忽略了。

是我的错误还是hxselect

0 投票
2 回答
481 浏览

bash - 如何使用 hxselect 生成数组结果?

我正在使用hxselect在 bash 中处理 HTML 文件。

在这个文件中,有多个用 '.row' 类定义的 div。

在 bash 中,我想将这些“行”提取到一个数组中。(div 是多行的,因此简单地逐行阅读是不合适的。)

有可能实现这一目标吗?(用基础工具,awk,grep等)

将行分配给数组后,我想进一步处理它:

谢谢!

0 投票
1 回答
142 浏览

xml - Vbscript / UFT如何获取标签元素名称以验证标签元素的Xpath

附加的 XML 示例,在附加的 XML 中,我想验证标签元素的存在,例如:PayloadList/IFXResp/IFX/GeneralStatus/StatusCode

如果有人可以帮助我获得上述 xpath 代码,那就太好了。在 vbscript/UFT 中查找代码以打印标记元素名称