python - 来自电话的搭配数据

翻译自：https://stackoverflow.com/questions/38470514 2016-07-20T00:22:33.543

40 次

我每天有数千个电话从语音转换为文本。我尝试使用以下两个选项生成搭配数据

选项1

corpus.collocations(200,2)

选项#2

bigram = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(corpus)
finder.apply_freq_filter(5)
my_bigrams = finder.nbest(bigram.pmi,200)

当我使用选项 #1 时，我似乎得到了很好的数据，但这些术语似乎不是很完整，例如，我得到诸如“早上好”、“下午好”、“美国快递”之类的术语......它们是重要的术语但在电话中太常见了。

选项#2 似乎得到了更好的数据..example..它给了我汽车制造商和型号，城市名称..等等......

我想知道是否有人已经使用了这两个选项并决定走哪一条路线，如果是的话，是什么依据。

我确实看到选项 1 中的一些数据可能很好……所以我正在考虑使用这两个选项生成数据……

请问有什么想法吗？

*更多地编辑我的问题根据我到目前为止所看到的，我最终会从选项 2 中获得大部分结果，并将其与选项 1 中的一些结果合并。我想知道是否有人也可以摆脱一些阐明两者的工作方式有何不同。

python - 来自电话的搭配数据

0 回答 0

Related

Reference