“tag-soup”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

138 浏览

java - Tagsoup ，将文本标记为另一个标签

大家好，我希望这条消息能让你们一切都好。所以我的问题与tagsoup有关，我想要实现的是将标签作为另一个标签的文本，具体来说，我希望成为<a href="http://twitter.com/devices" rel="nofollow">标签的文本<SOURCE>，但我似乎无法做到，因为每次它看到一个开放的尖括号，它将其解释为一个新标签。那么有什么方法可以执行此操作吗？

提前致谢。

java tag-soup

2011-08-05T10:37:57.823

0 投票

1 回答

630 浏览

java - 带有 XPath 和 TagSoup 的 Java

我正在使用带有 java 的 TagSoup 来提取一些数据，但是某些 XPATH 不起作用，我只是得到空结果

2012-01-17T13:48:08.643

0 投票

1 回答

1789 浏览

java - 将标签包裹在纯 html 文本周围

我的 html 文档中有这个结构：

但我需要将我的“纯文本”包装在标签中，以便能够处理它:)

任何想法如何做到这一点？我看过 tagoup 和 jsoup 但我似乎没有办法轻松解决这个问题。也许使用一些花哨的正则表达式。

谢谢

java regex jsoup text-parsing tag-soup

2012-03-22T12:59:28.477

0 投票

1 回答

2113 浏览

performance - TagSoup vs JSoup :: 性能？

寻找 TagSoup 和 JSoup 对真实世界文档的性能比较。到目前为止，我一直在使用 TagSoup 进行 HTML 处理，并且效果很好。唯一的缺点是，由于 SAX 的性质，很多事情应该使用堆栈以编程方式完成（例如，用于处理带有标签的文本）。JSoup 看起来更简洁——但我关心的是性能。

performance jsoup tag-soup

2012-09-10T13:47:36.413

0 投票

2 回答

382 浏览

java - 我应该使用什么 html 解析器？

我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML，因为我需要使用石英在多线程环境中运行此进程？

如果一次有 10 个线程在内存中运行，那么我需要一个消耗更少内存的 API。在杰里科，我在某处读到它是基于文本的搜索 API，并且消耗的内存更少。我对吗？或者我应该去其他的，为什么？

java tag-soup jericho-html-parser crawler4j

2012-09-11T11:36:45.620

0 投票

1 回答

190 浏览

node.js - 使用 tagoup 时撇号出错

我正在尝试在 node.js Web 应用程序中获取网站的描述。它似乎运行良好，但是 node.js 似乎在 NCR 字符方面存在问题（http://en.wikipedia.org/wiki/Numeric_character_reference）。我为链接抓取器提供的代码如下所示

例如，如果我输入以下 URL 以获取信息表单 (http://www.zdnet.com)，则描述将为ZDNet's breaking news, analysis, and research keeps business technology professionals in touch with the latest IT trends, issues and events.. 撇号是问题（表示为'）

我的问题是，为什么没有任何库正确解析有效的 HTML NCR 并将它们转换为等效的字符串，如果没有办法解决这个问题，使用一些替换所有出现的 NCR 是否安全？其他图书馆？

我正在使用的库如下所述

node.js coffeescript html-parsing tag-soup

2012-11-08T13:50:30.217

0 投票

1 回答

809 浏览

html - 在 bash 中使用 TagSoup 将 HTML 转换为 XHTML

我的印象是您可以使用 TagSoup 将 HTML 转换为 XHTML。我将 tagsoup jar 文件保存为 tagsoup.jar 我使用了以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.html当我使用此命令时，它会生成 html 和 xhtml 文件，但是当我在 firefox 中打开 xhtml 时，它是空的。我怀疑当我流水线时它只是不知道我试图转换哪个文件。

有人可以帮我解决这个问题吗？

谢谢。

html bash xhtml tag-soup

2012-12-03T05:40:29.747

0 投票

3 回答

101 浏览

java - XPath 和链接的问题

我第一次发帖！

我遇到的问题是我正在使用 XPath 和 Tag-Soup 来解析网页并读取数据。由于这些是新闻文章，有时它们在内容中嵌入了链接，这些是我的程序搞砸的地方。

我正在使用的 XPath 是storyPath = "//html:article//html:p//text()";页面具有以下结构的地方：

我与 xpath 评估相关的代码是这样的：

这给我的输出是

有没有人有办法让我消除这个错误？我在某处采取了错误的方法吗？（我知道我很可能使用 setStory 代码，但看不到其他方式。

如果没有 tmp.replace() 代码，所有结果都会显示为 [#text: what a great story this is] 等

编辑：

我仍然遇到麻烦，尽管可能是另一种问题。。在这里杀死我的又是一个链接，但是 BBC 拥有他们的网站的方式，该链接位于单独的行上，因此它仍然会出现同样的问题如前所述（请注意，给出的示例已解决问题）。BBC页面上的代码部分是：

在我的输出中显示为：

java xpath tag-soup

2013-03-05T10:16:24.130

0 投票

2 回答

3320 浏览

groovy - 从groovy中的href-tag中提取URL

我需要解析格式错误的 HTML 页面并从中提取某些 URL 作为任何类型的集合。我真的不在乎什么样的集合，我只需要能够迭代它。

假设我们有这样的结构：

这是我到目前为止所做的：

我想要类似的东西

但我得到的是：

更准确地说，我不能使用所有 URL，因为我需要解析的 HTML 文档大约有 15000 行长，并且有很多我不需要的 URL。所以我需要每个“内部”块中的第一个URL。

groovy xmlslurper tag-soup

2013-03-17T16:01:44.883

0 投票

1 回答

1111 浏览

groovy - 在 Groovy 中使用命名空间和实体解析 XML

在 Groovy 中解析 XML 应该是小菜一碟，但我总是遇到问题。

我想解析这样的字符串：

当我以标准方式执行此操作时new XmlSlurper().parseText(body)，解析器会抱怨该&nbsp实体。在这种情况下，我的秘密武器是使用 tagoup：

但是现在这个<ac:sepcial>标签会被解析器立即关闭——special文本不会在生成的 dom 中的这个标签内。即使我禁用了命名空间功能：

另一种方法是使用标准解析器并添加一个像这样的文档类型：

这似乎适用于我的大多数文件，但解析器需要很长时间才能获取 dtd 并对其进行处理。

任何好主意如何解决这个问题？

PS：这里有一些示例代码可以玩：

groovy html-parsing xmlslurper tag-soup

2013-08-18T08:53:41.317

问题标签 [tag-soup]

Reference