1

我正在尝试使用 spaCy 对 Jupyter Notebook(Python 3)上的文件夹(带有 .txt 文件)进行标记化、词形还原和矢量化。

以下是我尝试编写的代码,但我可能犯了一个错误。我希望整个文件夹被标记化、词形化和矢量化(不是任何特定的 .txt 文件,而是它的大部分组合)。

#tokenization
    for token in file_list:
        print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

#lemmatisation 
    def show_lemmas(file_list):
        for token in text:
            print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}') 
            show_lemmas(file_list)  

#Vectorization (Using TF-IDF to create a vectorized document term matrix)
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer(max_df=0.95,min_df=2, stop_words='english')
    dtm =tfidf.fit_transform(file_list)
    dtm

我希望代码行能够对文件夹(具有大量 .txt 文件)执行文本矢量化、词形还原和语料库预处理。你能帮我写实现这一目标所需的代码吗?另外,让我知道在进入聚类分析之前是否应该做更多的事情(除了 Vec、Tok 和 Lemm)?

4

0 回答 0