像维基百科这样大的网站如何对重复的条目进行分类?
从用户创建重复条目的那一刻起,我需要知道确切的过程等等。如果您不知道但您知道方法,请发送。
- - 更新 - -
假设有 wikipedia.com/horse,然后有人创建了 wikipedia.com/the_horse,这是一个重复的条目!它应该被删除或可能被重定向到原始页面。
像维基百科这样大的网站如何对重复的条目进行分类?
从用户创建重复条目的那一刻起,我需要知道确切的过程等等。如果您不知道但您知道方法,请发送。
- - 更新 - -
假设有 wikipedia.com/horse,然后有人创建了 wikipedia.com/the_horse,这是一个重复的条目!它应该被删除或可能被重定向到原始页面。
这是一个手动过程
基本上,诸如维基百科和 stackoverflow 之类的网站都依赖其用户/编辑者在意外创建它们时不进行重复或合并/删除它们。有多种功能使此过程更容易和更可靠:
话虽如此,您仍然会在维基百科上找到很多重复的信息——但编辑们正在尽快清理这些信息。
一切都与社区有关(更新)
随着时间的推移,社区网站(如 wikipedia 或 stackoverflow)会随着时间的推移发展其程序。看看Wikipedia:about Stackoverflow:FAQ或meta.stackoverflow。您可以花数周时间阅读有关社区如何共同构建网站以及他们如何处理出现的问题的所有小(但重要)细节。其中大部分是关于您的贡献者的规则 --- 但是当您制定规则时,他们的许多细节将被放入您网站的代码中。
作为一般规则,我强烈建议用一个简单的系统和一个小的贡献者社区来创建一个站点,这些社区同意一个共同的目标并有兴趣阅读您网站的内容,喜欢贡献,愿意妥协和手动纠正问题。在这个阶段,拥有社区的“身份”和相互帮助比拥有许多访问者或贡献者更重要。您将不得不花费大量时间和精力来处理出现的问题并将责任委托给您的成员。一旦网站有了基础和共同商定的方向,您就可以慢慢发展您的社区。如果你做得对,你将获得足够的支持者在新成员之间分享额外的工作。如果您不够关心,垃圾邮件发送者或巨魔将接管您的网站。
请注意,维基百科多年来缓慢增长到目前的规模。秘诀不是“变大”,而是“保持健康成长”。
话虽如此,stackoverflow 的增长速度似乎比维基百科更快。您可能需要考虑此处做出的不同权衡决策:stackoverflow 在允许一个用户更改另一个用户的贡献方面受到更多限制。不良信息通常被简单地推到页面底部(低排名)。因此,它不会产生像维基百科这样的文章。但是把问题排除在外更容易。
我可以在 Yaakov 的列表中添加一个: * Wikipedia 确保在合并信息后,“The Horse”指向“Horse”,这样就不会再次使用相同的错误标题。
EBAGHAKI,在上面的评论中回答你的最后一个问题:
如果您尝试使用这些功能设计自己的系统,关键是:
在 MediaWiki 的案例中,这是通过特殊的“#REDIRECT”命令完成的——在第一行仅使用“#REDIRECT [[new article title]]”创建的文章被视为 URL 重定向。
MediaWiki 中使用的编辑系统的其余部分非常简单——每个页面本质上都被视为一个文本块,没有结构,并且具有任何读者都可以添加新修订的单流修订历史。这一切都不是自动的。
当您尝试创建主页时,会显示一条长消息,鼓励您以各种方式搜索页面标题以查看现有页面是否已经存在——许多站点都有类似的过程。Digg 是一个典型的例子,它通过积极的自动搜索试图说服你不要发布重复的内容——你必须点击一个列出潜在重复内容的屏幕并确认你的不同,然后才能发布。
我假设他们有一个程序可以删除诸如“the”之类的无关词以创建规范标题,并且如果它与现有页面匹配则不允许该条目。