0

我有一个不平衡的推文数据集,标记为 -1、0、+1。我想通过上采样来平衡数字。我收到以下错误:

tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)

could not convert string to float: 'از این به بعد همینهسلبریتی هایی که ایدیولوژی های #جمهوری_اسلامی رو تبلیغ می کنن خارج از مرز ایران هم حق ندارن آسایش داشته باشن و مجبور بود#باش همچنان ادا وفاداری به اون ایدیولوژی رو در بیارن چون هر جا یه دوربین منتظره که #ریاکاری شون رو ثبت کنه '

为什么它应该尝试将字符串变成浮点数?

PS。在重塑之前,tweet_train 和 y_train 是 shape=(n,) 的 numpy 数组

4

1 回答 1

1

您需要首先对数据进行矢量化:例如,您可以用一个与词汇表中的单词数相同大小的向量来表示一条推文。这些值是文档中单词(= 列)的出现次数。

于 2019-11-12T19:31:53.133 回答