问题标签 [tag-soup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
138 浏览

java - Tagsoup ,将文本标记为另一个标签

大家好,我希望这条消息能让你们一切都好。所以我的问题与tagsoup有关,我想要实现的是将标签作为另一个标签的文本,具体来说,我希望成为<a href="http://twitter.com/devices" rel="nofollow">标签的文本<SOURCE>,但我似乎无法做到,因为每次它看到一个开放的尖括号,它将其解释为一个新标签。那么有什么方法可以执行此操作吗?

提前致谢。

0 投票
1 回答
630 浏览

java - 带有 XPath 和 TagSoup 的 Java

我正在使用带有 java 的 TagSoup 来提取一些数据,但是某些 XPATH 不起作用,我只是得到空结果

0 投票
1 回答
1789 浏览

java - 将标签包裹在纯 html 文本周围

我的 html 文档中有这个结构:

但我需要将我的“纯文本”包​​装在标签中,以便能够处理它:)

任何想法如何做到这一点?我看过 tagoup 和 jsoup 但我似乎没有办法轻松解决这个问题。也许使用一些花哨的正则表达式。

谢谢

0 投票
1 回答
2113 浏览

performance - TagSoup vs JSoup :: 性能?

寻找 TagSoup 和 JSoup 对真实世界文档的性能比较。到目前为止,我一直在使用 TagSoup 进行 HTML 处理,并且效果很好。唯一的缺点是,由于 SAX 的性质,很多事情应该使用堆栈以编程方式完成(例如,用于处理带有标签的文本)。JSoup 看起来更简洁——但我关心的是性能。

0 投票
2 回答
382 浏览

java - 我应该使用什么 html 解析器?

我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?

如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?

0 投票
1 回答
190 浏览

node.js - 使用 tagoup 时撇号出错

我正在尝试在 node.js Web 应用程序中获取网站的描述。它似乎运行良好,但是 node.js 似乎在 NCR 字符方面存在问题(http://en.wikipedia.org/wiki/Numeric_character_reference)。我为链接抓取器提供的代码如下所示

例如,如果我输入以下 URL 以获取信息表单 (http://www.zdnet.com),则描述将为ZDNet&#039;s breaking news, analysis, and research keeps business technology professionals in touch with the latest IT trends, issues and events.. 撇号是问题(表示为&#039;

我的问题是,为什么没有任何库正确解析有效的 HTML NCR 并将它们转换为等效的字符串,如果没有办法解决这个问题,使用一些替换所有出现的 NCR 是否安全?其他图书馆?

我正在使用的库如下所述

0 投票
1 回答
809 浏览

html - 在 bash 中使用 TagSoup 将 HTML 转换为 XHTML

我的印象是您可以使用 TagSoup 将 HTML 转换为 XHTML。我将 tagsoup jar 文件保存为 tagsoup.jar 我使用了以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.html当我使用此命令时,它会生成 html 和 xhtml 文件,但是当我在 firefox 中打开 xhtml 时,它是空的。我怀疑当我流水线时它只是不知道我试图转换哪个文件。

有人可以帮我解决这个问题吗?

谢谢。

0 投票
3 回答
101 浏览

java - XPath 和链接的问题

我第一次发帖!

我遇到的问题是我正在使用 XPath 和 Tag-Soup 来解析网页并读取数据。由于这些是新闻文章,有时它们在内容中嵌入了链接,这些是我的程序搞砸的地方。

我正在使用的 XPath 是storyPath = "//html:article//html:p//text()";页面具有以下结构的地方:

我与 xpath 评估相关的代码是这样的:

这给我的输出是

有没有人有办法让我消除这个错误?我在某处采取了错误的方法吗?(我知道我很可能使用 setStory 代码,但看不到其他方式。

如果没有 tmp.replace() 代码,所有结果都会显示为 [#text: what a great story this is] 等

编辑:

我仍然遇到麻烦,尽管可能是另一种问题。。在这里杀死我的又是一个链接,但是 BBC 拥有他们的网站的方式,该链接位于单独的行上,因此它仍然会出现同样的问题如前所述(请注意,给出的示例已解决问题)。BBC页面上的代码部分是:

在我的输出中显示为:

0 投票
2 回答
3320 浏览

groovy - 从groovy中的href-tag中提取URL

我需要解析格式错误的 HTML 页面并从中提取某些 URL 作为任何类型的集合。我真的不在乎什么样的集合,我只需要能够迭代它。

假设我们有这样的结构:

这是我到目前为止所做的:

我想要类似的东西

但我得到的是:

更准确地说,我不能使用所有 URL,因为我需要解析的 HTML 文档大约有 15000 行长,并且有很多我不需要的 URL。所以我需要每个“内部”块中的第一个URL。

0 投票
1 回答
1111 浏览

groovy - 在 Groovy 中使用命名空间和实体解析 XML

在 Groovy 中解析 XML 应该是小菜一碟,但我总是遇到问题。

我想解析这样的字符串:

当我以标准方式执行此操作时new XmlSlurper().parseText(body),解析器会抱怨该&nbsp实体。在这种情况下,我的秘密武器是使用 tagoup:

但是现在这个<ac:sepcial>标签会被解析器立即关闭——special文本不会在生成的 dom 中的这个标签内。即使我禁用了命名空间功能:

另一种方法是使用标准解析器并添加一个像这样的文档类型:

这似乎适用于我的大多数文件,但解析器需要很长时间才能获取 dtd 并对其进行处理。

任何好主意如何解决这个问题?

PS:这里有一些示例代码可以玩: