我们都知道 HTML 页面的内容不仅仅是打开和关闭标签之间的数据,例如,<p></p>
.
除了图像“alt”和任何“title”属性之外,我应该将哪些 HTML 提供给我作为内容?
有什么建议么?
我们都知道 HTML 页面的内容不仅仅是打开和关闭标签之间的数据,例如,<p></p>
.
除了图像“alt”和任何“title”属性之外,我应该将哪些 HTML 提供给我作为内容?
有什么建议么?
标题 ( <h1>
- <h6>
)、图片 ( <img />
)、段落 ( <p>
) 和链接 ( <a>
)。仅此而已。除非你也想数桌子。
如果您想从正文中提取所有文本,您可以使用phpQuery之类的刮板工具轻松完成(需要 PHP):
phpQuery::newDocument(file_get_contents("http://www.somesite.com"));
$body = pq("body")->text();
print $body;
在该示例中,$text 将是整个页面的总内容。然后,您可以在那里搜索关键字以帮助您确定内容。
正如您在评论中所说,您要防止提交色情网址。使用此方法,您可以获得文本。获得文本后,您可以对其进行扫描并构建关键字/实例列表。该列表应该让您对页面的内容/主题有一个很好的了解(除非页面只是某种视频)。
要了解如何构建这些关键字/实例列表,请查看以下问题: 从文本中快速构建关键字列表,包括实例数