-1

我们都知道 HTML 页面的内容不仅仅是打开和关闭标签之间的数据,例如,<p></p>.

除了图像“alt”和任何“title”属性之外,我应该将哪些 HTML 提供给我作为内容?

有什么建议么?

4

1 回答 1

1

获取您的文本...

标题 ( <h1>- <h6>)、图片 ( <img />)、段落 ( <p>) 和链接 ( <a>)。仅此而已。除非你也想数桌子。

如果您想从正文中提取所有文本,您可以使用phpQuery之类的刮板工具轻松完成(需要 PHP):

phpQuery::newDocument(file_get_contents("http://www.somesite.com"));
$body = pq("body")->text();
print $body;

在该示例中,$text 将是整个页面的总内容。然后,您可以在那里搜索关键字以帮助您确定内容。

扫描您的文本以查找关键字...

正如您在评论中所说,您要防止提交色情网址。使用此方法,您可以获得文本。获得文本后,您可以对其进行扫描并构建关键字/实例列表。该列表应该让您对页面的内容/主题有一个很好的了解(除非页面只是某种视频)。

要了解如何构建这些关键字/实例列表,请查看以下问题: 从文本中快速构建关键字列表,包括实例数

于 2009-07-02T21:13:52.283 回答