0

我想编写一个脚本来检查文档中的关键字并指定包含它们的 html 文档节点(可能分配一个唯一标识符)。

我不是专业的程序员,不知道低级语言的实力和PLO之类的东西。我害怕做一些非常糟糕且不受支持的事情。

如何隔离所需的节点?

我的经验 - js 和 php - php 只用于非常简单的事情。另外,我不想利用这个机会使用 js 节点。我的想法:

  • 制作一串html
  • 验证页面上的单词是否存在
  • 如果页面上的单词存在:body 元素中的 foreach 节点我得到第一个和最后一个位置(例如,我们看到我们最初知道位置的每个字符的开始标签,因此我们计算标签打开的第一个位置和关闭的最后一个位置。等等所有节点)。

我们知道单词的位置(例如 192、199)并检查它在什么范围内(在这种情况下,这些带 - 节点 html 文档)。

我需要有经验的程序员的想法。您正在编程什么语言并不重要(面向网络的除外) - 每个意见对我都很重要。很可能存在解决此类问题的库。我非常希望你能理解我。英语不是我的母语。

4

2 回答 2

1

您需要使用 html 解析器。参考

哪个 HTML 解析器最好?

之后,您需要使用 xpath 功能来提取任何节点。

于 2013-05-13T19:29:53.570 回答
1

我总是为这种事情推荐美丽的汤。它是一个 Python 库,可让您真正快速地解析 XML/HTML 文档。你可以很快地运行一些东西,从我认为的每个 div 元素中提取文本。然后使用 Python 内置的字符串操作工具,我确信搜索特定单词会相当简单。

于 2013-05-13T19:41:03.717 回答