问题标签 [tag-soup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Tagsoup ,将文本标记为另一个标签
大家好,我希望这条消息能让你们一切都好。所以我的问题与tagsoup有关,我想要实现的是将标签作为另一个标签的文本,具体来说,我希望成为<a href="http://twitter.com/devices" rel="nofollow">
标签的文本<SOURCE>
,但我似乎无法做到,因为每次它看到一个开放的尖括号,它将其解释为一个新标签。那么有什么方法可以执行此操作吗?
提前致谢。
java - 带有 XPath 和 TagSoup 的 Java
我正在使用带有 java 的 TagSoup 来提取一些数据,但是某些 XPATH 不起作用,我只是得到空结果
java - 将标签包裹在纯 html 文本周围
我的 html 文档中有这个结构:
但我需要将我的“纯文本”包装在标签中,以便能够处理它:)
任何想法如何做到这一点?我看过 tagoup 和 jsoup 但我似乎没有办法轻松解决这个问题。也许使用一些花哨的正则表达式。
谢谢
performance - TagSoup vs JSoup :: 性能?
寻找 TagSoup 和 JSoup 对真实世界文档的性能比较。到目前为止,我一直在使用 TagSoup 进行 HTML 处理,并且效果很好。唯一的缺点是,由于 SAX 的性质,很多事情应该使用堆栈以编程方式完成(例如,用于处理带有标签的文本)。JSoup 看起来更简洁——但我关心的是性能。
java - 我应该使用什么 html 解析器?
我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?
如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?
node.js - 使用 tagoup 时撇号出错
我正在尝试在 node.js Web 应用程序中获取网站的描述。它似乎运行良好,但是 node.js 似乎在 NCR 字符方面存在问题(http://en.wikipedia.org/wiki/Numeric_character_reference)。我为链接抓取器提供的代码如下所示
例如,如果我输入以下 URL 以获取信息表单 (http://www.zdnet.com),则描述将为ZDNet's breaking news, analysis, and research keeps business technology professionals in touch with the latest IT trends, issues and events.
. 撇号是问题(表示为'
)
我的问题是,为什么没有任何库正确解析有效的 HTML NCR 并将它们转换为等效的字符串,如果没有办法解决这个问题,使用一些替换所有出现的 NCR 是否安全?其他图书馆?
我正在使用的库如下所述
html - 在 bash 中使用 TagSoup 将 HTML 转换为 XHTML
我的印象是您可以使用 TagSoup 将 HTML 转换为 XHTML。我将 tagsoup jar 文件保存为 tagsoup.jar 我使用了以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.html
当我使用此命令时,它会生成 html 和 xhtml 文件,但是当我在 firefox 中打开 xhtml 时,它是空的。我怀疑当我流水线时它只是不知道我试图转换哪个文件。
有人可以帮我解决这个问题吗?
谢谢。
java - XPath 和链接的问题
我第一次发帖!
我遇到的问题是我正在使用 XPath 和 Tag-Soup 来解析网页并读取数据。由于这些是新闻文章,有时它们在内容中嵌入了链接,这些是我的程序搞砸的地方。
我正在使用的 XPath 是storyPath = "//html:article//html:p//text()";
页面具有以下结构的地方:
我与 xpath 评估相关的代码是这样的:
这给我的输出是
有没有人有办法让我消除这个错误?我在某处采取了错误的方法吗?(我知道我很可能使用 setStory 代码,但看不到其他方式。
如果没有 tmp.replace() 代码,所有结果都会显示为 [#text: what a great story this is] 等
编辑:
我仍然遇到麻烦,尽管可能是另一种问题。。在这里杀死我的又是一个链接,但是 BBC 拥有他们的网站的方式,该链接位于单独的行上,因此它仍然会出现同样的问题如前所述(请注意,给出的示例已解决问题)。BBC页面上的代码部分是:
在我的输出中显示为:
groovy - 从groovy中的href-tag中提取URL
我需要解析格式错误的 HTML 页面并从中提取某些 URL 作为任何类型的集合。我真的不在乎什么样的集合,我只需要能够迭代它。
假设我们有这样的结构:
这是我到目前为止所做的:
我想要类似的东西
但我得到的是:
更准确地说,我不能使用所有 URL,因为我需要解析的 HTML 文档大约有 15000 行长,并且有很多我不需要的 URL。所以我需要每个“内部”块中的第一个URL。
groovy - 在 Groovy 中使用命名空间和实体解析 XML
在 Groovy 中解析 XML 应该是小菜一碟,但我总是遇到问题。
我想解析这样的字符串:
当我以标准方式执行此操作时new XmlSlurper().parseText(body)
,解析器会抱怨该 
实体。在这种情况下,我的秘密武器是使用 tagoup:
但是现在这个<ac:sepcial>
标签会被解析器立即关闭——special
文本不会在生成的 dom 中的这个标签内。即使我禁用了命名空间功能:
另一种方法是使用标准解析器并添加一个像这样的文档类型:
这似乎适用于我的大多数文件,但解析器需要很长时间才能获取 dtd 并对其进行处理。
任何好主意如何解决这个问题?
PS:这里有一些示例代码可以玩: