我倾向于定期做笔记,自从伟大的平板电脑革命以来,我一直以电子方式记笔记。我一直在尝试看看我是否能在我记笔记的方式中找到任何模式。所以我整理了一个小技巧来加载笔记并过滤掉专有名词和绒毛,留下我使用的关键词列表。
import os
import re
dr = os.listdir('/home/notes')
dr = [i for i in dr if re.search('.*txt$',i)]
ignore = ['A','a','of','the','and','in','at','our','my','you','your','or','to','was','will','because','as','also','is','eg','e.g.','on','for','Not','not']
words = set()
d1 = open('/home/data/en_GB.dic','r')
dic = d1.read().lower()
dic = re.findall('[a-z]{2,}',dic)
sdic = set(dic)
for i in dr:
a = open(os.path.join('/home/notes',i),'r')
atmp = a.read()
atmp = atmp.lower()
atmp = re.findall('[a-z]{3,}',atmp)
atmp = set(atmp)
atmp.intersection_update(sdic)
atmp.difference_update(set(ignore))
words.update(atmp)
a.close()
words = sorted(words)
我现在有一个大约 15,000 个单词的列表,我在做笔记时经常使用。手动排序有点难以管理,我想知道是否有一个开源库
positive-negative-neutral
或optimistic-pessimistic-indifferent
其他形式的单词列表,我可以运行单词列表。
在一个完美的场景中,我还可以通过某种同义词库来运行它,这样我就可以将这些词分组到意义集群中,以获得我最常使用的意义术语的高级视图。
有谁知道那里是否有这样的列表,如果有,我将如何在 Python 中使用它们?
谢谢