python - xlsx 文件的 Readlines 函数工作不正常

Question

目标是情感分类。步骤是打开 3 个 xlsx 文件，读取它们，使用 gensim.doc2vec 方法处理并使用 SGDClassificator 进行分类。只需尝试在 doc2vec 上重复此代码。蟒蛇 2.7

with open('C:/doc2v/trainpos.xlsx','r') as infile:
    pos_reviews = infile.readlines()
with open('C:/doc2v/trainneg.xlsx','r') as infile:
    neg_reviews = infile.readlines()
with open('C:/doc2v/unsup.xlsx','r') as infile:
    unsup_reviews = infile.readlines()

但事实证明，结果列表并非预期的那样：

print 'length of pos_reviews is %s' % len(pos_reviews)
>>> length of pos_reviews is 1

这些文件分别包含 18、1221 和 2203 个原始数据。我认为这些列表将具有相同数量的元素。

下一步是连接所有的句子。

y = np.concatenate((np.ones(len(pos_reviews)), np.zeros(len(neg_reviews))))
x_train, x_test, y_train, y_test = train_test_split(np.concatenate((pos_reviews, neg_reviews)), y, test_size=0.2)

这导致了当 x-train、x-test 是句子列表时的情况，因为它们应该是 while

y_train = [0.]
y_test = [1.]

在这个划分之后，每个句子都有一个标签：

def labelizeReviews(reviews, label_type):
labelized = []
for i,v in enumerate(reviews):
    label = '%s_%s'%(label_type,i)
    labelized.append(LabeledSentence(v, [label]))
return labelized
x_train = labelizeReviews(x_train, 'TRAIN')
x_test = labelizeReviews(x_test, 'TEST')
unsup_reviews = labelizeReviews(unsup_reviews, 'UNSUP')

正如numpy 文档中所写，数组的大小应该相等。但是当我将较大的文件减少到 18 行时，没有任何变化。正如我在论坛上搜索的那样，没有人有类似的错误。我已经打破了我的头出了什么问题以及如何解决它。感谢帮助！

score 1 · Accepted Answer

通常，您无法使用readlines或之类的方法将 Microsoft Excel 文件作为文本文件读取read。您应该在之前将文件转换为另一种格式（好的解决方案是 .csv 可以被csv模块读取）或使用特殊的 python 模块，如pyexcel和openpyxl直接读取 .xlsx 文件。

python - xlsx 文件的 Readlines 函数工作不正常

1 回答 1

Related

Reference