我有一个维基百科文章编辑的序列化集合,我使用 node.js 流式传输并存储到 mongodb。它们看起来像这样:
{ "time" : 1338144181565, "page" : "Pavol Országh Hviezdoslav", "url" : "http://es.wikipedia.org/w/index.php?diff=56528327&oldid=56521690", "delta" : -60, "_id" : ObjectId("4fc275b5cd08c22d31000001") }
{ "time" : 1338144183265, "page" : "Indian Premier League", "url" : "http://en.wikipedia.org/w/index.php?diff=494656175&oldid=494656151", "delta" : -12, "_id" : ObjectId("4fc275b7cd08c22d31000002") }
{ "time" : 1338144187346, "page" : "Dizz Knee Land", "url" : "http://en.wikipedia.org/w/index.php?diff=494656189&oldid=494656176", "delta" : -84, "_id" : ObjectId("4fc275bbcd08c22d31000003") }
URL 显示了编辑中的差异,我将使用 python 脚本抓取编辑后的文本,然后希望使用新字段“edit_text”更新记录,并可能使用每个主图像的 img src (“image_url”)维基百科文章(如果有的话)。
想法是最终将更新的数据流式传输到 Web 应用程序,该应用程序在上下文中显示已编辑的文本以及页面标题和图像(如果后者存在)。
通过将所有结果保存在同一个集合中来做到这一点,或者将结果存储在新集合中会更好吗?