0

我们正在使用 Google CSE(自定义搜索引擎)付费服务来索引我们网站上的内容。该站点主要由包含文件的 PHP 页面构建而成,但也有一些动态页面将信息从数据库中提取到单个页面模板中(例如新版本)。我们遇到的问题是我可以为数据库中的内容设置过期日期,因此说“id=2”会显示“此内容已过期”通知。但是,如果 ID 2 附加了上传的 PDF,则 PDF 文件仍保留在搜索索引中。

我知道我可以编写一个清理脚本并让 cron 运行它来查看数据库、查找过期内容、检查是否附加了任何上传的文件并重命名或删除它们,但必须有更好的解决方案(我希望)。

如果您过去遇到过这种情况,请告诉我,以及您的建议。

感谢:D。

4

2 回答 2

0

我们最终做的是将一个检查脚本绑定到上传脚本,一旦它完成当前上传,旧文件将被“取消链接”并且数据库记录被删除。

对我们来说,这是可行的,因为它是一种“添加一个/删除一个”的情况,我们希望一组项目以滚动顺序出现。

于 2010-08-06T22:03:56.447 回答
0

不幸的是,目前无法给您一个直接的答案:我们不知道您的 PDF 如何“附加”到您的页面或您的数据库的结构。

最好的解决方案是创建一个robots.txt文件来阻止您要删除的特定 PDF 文件的 URL。Google 将在下一次传递时将它们从索引中删除(通常在大约一个小时内)。

http://www.robotstxt.org/

于 2010-02-21T06:27:51.367 回答