作为一名语言学家和 python 初学者,我想在我自己的(德语)推文语料库中找到单词搭配。如何将来自 pandas 数据框的推文(只有一列 = 推文)转换为单词列表,然后才能使用 nltk-collocation-finder?我的版本(如下)创建了一个字母列表而不是单词列表,只是给了我字母搭配。任何建议都会很棒!
这是我到目前为止所拥有的:
import pandas as pd
data = pd.read_csv("tweets.csv")
import regex as re
def cleaningTweets(twt):
twt = re.sub('@[A-ZÜÄÖa-züäöß0-9]+', '', twt)
twt = re.sub('#', '', twt)
twt = re.sub('https?:\/\/\S+', '', twt)
return twt
df = pd.DataFrame(data)
df.tweet = df.tweet.apply(cleaningTweets)
df.tweet = df.tweet.str.lower()
from textblob_de import TextBlobDE as TextBlob
df["tweet_tok"] = df["tweet"].apply(lambda x: " ".join(TextBlob(x).words))
all_words = ' '.join([text for text in df.tweet_tok])
tweettext = nltk.Text(all_words)