1

有许多脚本从 html 页面中提取文章。如果使用正则表达式从 html 或 PHP 页面源中获取唯一的主要文章,什么是最好的正则表达式来仅获取主要文章。此外,仅在 PHP 或其他程序中获得那些没有正则表达式的最简单和最好的方法是什么。一些脚本使用许多过滤器从 html 或 PHP 源代码中提取主要文章,其中存在非英语语言、字符和多字节字符的问题。结果,由于上述问题,他们无法从源头上很好地获取主要文章的部分。

通常,主文章必须在 'div'、'p' 或 html 或 PHP 源代码中的其他标记中。然后,页面中的其他 html 元素带有导航、链接、提取和其他。使用正则表达式可以通过定义表达式中的多字节、字符和语言差异来轻松解决先前的问题。大多数文章提取软件使用过滤器来查找'comment'、first'、'next'、'nav'、'button'、'submit'等来检查他们持有的部分是内容还是其他元素。标签、id、类和其他标签很可能仅在英语和 ISO-西欧字符中有效。他们无法提取文章的确切部分,因为他们不理解他们试图过滤的语言或字符。

从文章提取脚本源锅炉管道使用的其他元素中过滤文章的以下算法正在使用;(如果您仔细检查“src”文件。)

  1. 检查字符是否足够长。(字数和字数)
  2. 检查标签是否在建议列表、评论、第一、下一个、导航等。(使用或不使用正则表达式的数组搜索)
  3. 其他检查以验证来自其他 html 元素、启发式和其他内容的文章。

有网页文章提取的理论,但并不比使用正则表达式简单。它们可以转换为简单的正则表达式或其他简单的程序。

用java写的boilerpipe提取文章,但是太复杂还有语言和字符的问题。最好同时使用几个正则表达式和其他一些正则程序来过滤文章。

我正在寻找的确切内容如下

正则表达式仅从 html 和 PHP 页面中提取文章。 使用少量正则表达式仅从 html 或 PHP 源中提取文章,而不使用任何其他元素和其他表达式来检查非文章的可能性。

仅从 html 和 PHP 页面中提取文章的非正则表达式。 使用 PHP 仅从 html 或 PHP 源代码中提取文章,而不使用正则表达式,以简单的方式。另外,需要检查文章是否。

它们都必须不受语言和字符集的限制,多字节和简单的示例足以容纳单个页面。

4

0 回答 0