我正在制作一个网站,该网站将对互联网上数十万个其他网站的隐私政策进行审查。它的初始内容是基于我运行CommonCrawl 50 亿页网页转储并使用脚本分析所有隐私政策,以识别某些特征(例如“出售您的个人信息”)。
搜索引擎往往只抓取任何给定页面上的大约 100 个链接。这种宽松的限制对于减少垃圾邮件和保持排名是必要的。
我想知道什么是创建导航网络的聪明方法,它不会留下孤立的页面,但仍然可以避免他们所说的这种 SEO 惩罚。我有几个想法:
- 创建按字母顺序排列的页面(或 Google Sitemap .xml),例如“以 Ado* 开头的站点”。例如,它将在那里链接“Adobe.com”。这或任何其他无意义的页面拆分似乎有点做作,我想知道谷歌是否会不喜欢它。
- 使用元关键字或描述进行分类
- 找到一些方法来应用更有趣的类别,例如基于地理或基于内容的类别。我在这里担心的是我不确定如何将这些类别全面应用于这么多网站。我想如果需要,我可以编写另一个分类器来尝试分析爬网中的页面内容。不过,这听起来像是一项艰巨的工作。
- 使用 DMOZ 项目来帮助对页面进行分类。
Wikipedia 和 StackOverflow 通过允许用户对所有页面进行分类或标记,显然很好地解决了这个问题。就我而言,我没有那么奢侈,但我想找到最好的选择。
这个问题的核心是谷歌如何响应不同的导航结构。它会惩罚那些以程序化/无意义的方式创建网页的人吗?或者只要一切都通过链接连接,它就不在乎了吗?