2

我正在对大量的登陆页面进行比较。我正在尝试提取主标题和号召性用语,但当然页面的 HTML 格式差异很大。

我开始寻找 H1、H2 等,假设标题标签对应于优先级,但通常情况并非如此。渲染的 font-size* 可能是一个更好的指标,但是这看起来很混乱,并且无法处理使用带有 alt 标签的图像的情况。

使用 Nokogiri 识别 100 个狂野着陆页的主标题的好策略是什么?

*另外 - 是否有用于渲染字体大小的巧妙选择器?

4

1 回答 1

2

除非您运行的 AI 可以确定文档中语义上最重要的部分,否则您无法做到这一点。

您不能指望标签,例如标题或元标签,因为它们可能会完全丢失。

您不能指望源中的位置,因为 CSS 可以将内容移动到任何地方。

而且,即使你认为通过查看 CSS 已经掌握了它,JavaScript 也可以从你身上撕下这个现实,因为它可以覆盖一切,依赖于需要人的眼睛和大脑才能理解最终渲染的事实页。

所以,基本上,除非你有可以理解页面内容并确定单词出现频率、同义词及其词根的代码,然后确定它们在CSS 和 JavaScript 运行的页面。

这确实是一项艰巨的任务,许多大公司都在花费大量资金。

于 2013-07-01T23:24:48.203 回答