我每天有数千个电话从语音转换为文本。我尝试使用以下两个选项生成搭配数据
选项1
corpus.collocations(200,2)
选项#2
bigram = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(corpus)
finder.apply_freq_filter(5)
my_bigrams = finder.nbest(bigram.pmi,200)
当我使用选项 #1 时,我似乎得到了很好的数据,但这些术语似乎不是很完整,例如,我得到诸如“早上好”、“下午好”、“美国快递”之类的术语......它们是重要的术语但在电话中太常见了。
选项#2 似乎得到了更好的数据..example..它给了我汽车制造商和型号,城市名称..等等......
我想知道是否有人已经使用了这两个选项并决定走哪一条路线,如果是的话,是什么依据。
我确实看到选项 1 中的一些数据可能很好……所以我正在考虑使用这两个选项生成数据……
请问有什么想法吗?
*更多地编辑我的问题 根据我到目前为止所看到的,我最终会从选项 2 中获得大部分结果,并将其与选项 1 中的一些结果合并。我想知道是否有人也可以摆脱一些阐明两者的工作方式有何不同。