我正在开发一个专注于持续学习的网络爬虫,以查找与世界各地发生的特定危机和悲剧事件相关的新闻文章。我目前正在努力使数据模型尽可能精简和高效,因为它会随着爬行的继续而不断增长。
我将数据模型存储在一个列表中(对被抓取的页面进行 TFIDF 比较),我想减小列表的大小,但不会丢失列表中每个项目的相对计数。
这是来自 2 个已爬网网页的示例模型:
[[u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'crime', u'terror', u'crime', u'inform', u'servic', u'inform', u'laboratori', u'servic', u'want', u'want', u'want', u'terror', u'crime', u'want', u'news', u'news', u'press', u'news', u'servic', u'crime', u'inform', u'servic', u'laboratori', u'servic', u'servic', u'crime', u'crime', u'crime', u'terror', u'boston', u'press', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'boston', u'special', u'agent', u'remark', u'richard', u'deslauri', u'boston', u'investig', u'time', u'time', u'investig', u'boston', u'terror', u'law', u'enforc', u'boston', u'polic', u'polic', u'alreadi', u'alreadi', u'law', u'enforc', u'around', u'evid', u'boston', u'polic', u'evid', u'laboratori', u'evid', u'laboratori', u'may', u'alreadi', u'laboratori', u'investig', u'boston', u'polic', u'law', u'enforc', u'investig', u'around', u'alreadi', u'around', u'investig', u'law', u'enforc', u'evid', u'may', u'time', u'may', u'may', u'investig', u'may', u'around', u'time', u'investig', u'investig', u'boston', u'boston', u'news', u'press', u'boston', u'want', u'boston', u'want', u'news', u'servic', u'inform'], [u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'crime', u'crime', u'inform', u'servic', u'inform', u'servic', u'nation', u'want', u'ten', u'want', u'want', u'crime', u'want', u'news', u'news', u'press', u'releas', u'news', u'stori', u'servic', u'crime', u'inform', u'servic', u'servic', u'servic', u'crime', u'crime', u'crime', u'news', u'press', u'press', u'releas', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2013', u'nation', u'press', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'2011', u'foreign', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'inform', u'2011', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'foreign', u'govern', u'2011', u'inform', u'foreign', u'govern', u'nation', u'press', u'releas', u'crime', u'releas', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'nation', u'press', u'releas', u'want', u'news', u'servic', u'inform', u'govern']]
我想维护单词列表,而不是将计数嵌入到列表本身中。我希望列表来自:
[波士顿,波士顿,波士顿,爆炸案,爆炸案,Tsarnaev,Tsarnaev,时间] 到 [波士顿,波士顿,爆炸案,Tsarnaev]
基本上,如果我有一个列表 [a,a,a,b,b,c],我想将其简化为 [a,a,b]
编辑:抱歉不清楚,但我会再试一次。我不想要一套。出现的次数非常重要,因为它是一个加权列表,因此“波士顿”应该比“时间”或其他类似术语出现的次数更多。我想要完成的是最小化数据模型,同时从模型中删除无关紧要的项。所以在上面的例子中,我故意省略了 C,因为它给模型增加了很多“脂肪”。我想保持相对性,因为 A 比 B 多出现 1 次,比 C 多出现 2 次,但由于 C 在原始模型中只出现一次,因此它正在从精益模型中删除。