“html-content-extraction”的相关标签问题

0 投票

5 回答

4716 浏览

java - Possible to parse a HTML document and build a DOM tree(java)

Is it possible and what tools could be used to parse an html document as a string or from a file and then to construct a DOM tree so that a developer can walk the tree through some API.

For example:

Note: this is a HTML document not XHtml.

2009-09-16T14:15:07.473

0 投票

4 回答

1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文，通常是 HTML 格式，但有时是文本，或者我们使用 PDF/Word/RTF 附件中的信息。然后，我们应用正则表达式（有时分几个步骤）以获取以表格形式提供的信息（您可以想到航班表、酒店表等）。请注意，即使我们解析 HTML，这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎，但出于商业原因，我们正在寻求替换它。你能推荐其他引擎吗？它必须在 Linux 上运行并且可以从 Java 访问（Java API 是最好的，但 Web 服务也是很好的解决方案）。它还必须支持用于文本提取的正则表达式，而不仅仅是基于 HTML 结构。

parsing information-retrieval html-content-extraction text-mining information-extraction

2009-09-23T11:05:40.673

0 投票

5 回答

3696 浏览

php - 如何使用 PHP 从 HTML 文件中提取所有文本？

如何从HTML文件中提取所有文本

我想提取所有文本，在 alt 属性、<p> 标签等中。

但是我不想提取样式和脚本标签之间的文本

谢谢

现在我有以下代码

这很好用，但它检索我不想检索的脚本和样式标签，另一个问题我不确定它是否检索像 alt 这样的属性 - 因为 strip_tags 函数可能会删除所有 HTML 标签及其属性

谢谢

php html regex parsing html-content-extraction

2009-10-02T08:12:31.403

0 投票

3 回答

1951 浏览

python - 用于从格式错误的 html 页面中提取文本的 Python 策略

我正在尝试从任意 html 页面中提取文本。一些页面（我无法控制）有格式错误的 html 或脚本，这使得这很困难。此外，我在共享托管环境中，所以我可以安装任何 python 库，但我不能只在服务器上安装我想要的任何东西。

pyparsing 和 html2text.py 似乎也不适用于格式错误的 html 页面。

示例 URL 为http://apnews.myway.com/article/20091015/D9BB7CGG1.html

我目前的实现大致如下：

如果 beautifulsoup 仍然不起作用，那么我求助于使用启发式方法来查看第一个字符，最后一个字符（看看它们是否看起来像它的代码行 # < ; 并对该行进行采样，然后检查令牌是英文单词或数字。如果很少有标记是单词或数字，那么我猜该行是代码。

我可以使用机器学习来检查每一行，但这似乎有点贵，而且我可能必须对其进行训练（因为我对无监督学习机器了解不多），当然也要编写它。

任何建议、工具、策略都将受到欢迎。我还意识到，后半部分相当混乱，因为如果我得到一个确定包含代码的行，我目前会丢弃整行，即使该行中有少量实际的英文文本。

python html text html-content-extraction

2009-10-23T18:11:41.290

0 投票

3 回答

1975 浏览

html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在爬取新闻网站，想提取新闻标题、新闻摘要（第一段）等

我插入了 webkit 解析器代码，以轻松地将网页作为树导航。为了消除导航和其他非新闻内容，我采用了文章的文本版本（减去 html 标签，webkit 提供了相同的 api）。然后我运行 diff 算法比较来自同一网站的各种文章的文本，这导致相似的文本被消除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法，但我的最终文本中仍然有些垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇，即 50%。错误如

你可以吗

建议提取纯内容的替代策略，
学习自然语言处理是否有助于从这些文章中提取正确的摘要？
您将如何解决上述问题？
这些研究论文是否相同？

问候

安库尔古普塔

html artificial-intelligence nlp html-content-extraction text-extraction

2009-11-08T15:42:04.673

0 投票

7 回答

1771 浏览

perl - 编写可维护的网络抓取应用程序的最佳方法是什么？

不久前我写了一个 perl 脚本，它登录到我的网上银行，每天通过电子邮件将我的余额和一个小报表发给我。我发现它对于跟踪我的财务状况非常有用。唯一的问题是我只使用 perl 和 curl 编写它，它非常复杂且难以维护。在我的银行更改了他们的网页的几次实例之后，我厌倦了调试它以使其保持最新状态。

那么以易于维护的方式编写这样的程序的最佳方法是什么？我想用 Perl 或 Java 编写一个设计良好的版本，当银行不可避免地摆弄他们的网站时，它很容易更新。

perl webforms screen-scraping html-content-extraction

2009-11-09T11:17:10.477

0 投票

3 回答

3347 浏览

caching - 如何以编程方式保存网页？

我想以编程方式保存网页。

我的意思不仅仅是保存 HTML。我还想自动存储所有相关文件（图像、CSS 文件，可能是嵌入的 SWF 等），并希望重写链接以供本地浏览。

预期用途是个人书签应用程序，其中链接内容被缓存以防原始副本被删除。

caching web-applications screen-scraping html-content-extraction

2009-11-13T22:32:30.097

0 投票

3 回答

2868 浏览

php - 从 wsj.com 或 finance.yahoo.com 抓取

我想在 wordpress 页面上显示过去 2 周纽约证券交易所开市的股票总交易量。这样做的最佳方法是什么？

php screen-scraping html-content-extraction

2009-11-14T00:04:22.507

0 投票

2 回答

5334 浏览

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码在页面中查找所有有趣的链接：

它的工作做得很好。不幸的是，在这个标签里面有很多嵌套的标签，比如font，b和不同的东西......我只想得到文本内容，没有任何其他 html 标签。

链接示例：

当然它很丑（而且标记并不总是一样的！）我想得到：

在文档中说要text=True在 findAll 方法中使用，但它会忽略我的正则表达式。为什么？我该如何解决？

python beautifulsoup html-parsing html-content-extraction

2009-11-17T23:38:20.223

0 投票

7 回答

3837 浏览

python - Python HTML 抓取

这并不是真正的抓取，我只是想在类具有特定值的网页中找到 URL。例如：

我想获得 href 值。关于如何做到这一点的任何想法？也许正则表达式？你能发布一些示例代码吗？我猜想html抓取库，比如BeautifulSoup，只是为了这个有点矫枉过正......

非常感谢！

python html regex screen-scraping html-content-extraction

2009-11-24T23:23:25.757

问题标签 [html-content-extraction]

Reference