我昨天在这里用 R 语言问了同样的问题。但我现在想在 Python 中执行此操作,因为它看起来更快且内存效率更高。
我正在使用Python 文本挖掘库。
# create list of texts:
TextSet = ["java", "firefox java", "R php", "html php"]
TagSet = ["java", "php", "javascript"]
# CALCULATE TERM DOC MATRIX
tdm = textmining.TermDocumentMatrix()
for text in TextSet:
tdm.add_doc(text)
# KEEP ONLY TERMS INSIDE TAGS LIST
# Code in R: tdm.onlytags <- tdm[rownames(tdm)%in%TagSet$tag,]
# Code in Python 2.7: ?????
如何从 Python 中的一组文本和一组特定的术语(标签)构建术语文档矩阵?