python - 使用 Openpyxl 条件解析和输出 xlsx 文件

Question

我正在研究一个研究项目的数据。输出为 .csv 文件的形式，这些文件已转换为 .xlsx 文件。每个参与者都有一个单独的输出文件，每个文件包含关于几十个（左右）刺激的大约 40 种不同测量的数据。为了理解收集到的数据，我们需要用相关的相关测量分别查看每个刺激。每个输出文件都很大（50 列 x 60000 行）。我正在寻找使用 openpyxl 解析数据库以搜索具有特定字符串值的预先指定列中的单元格。当找到这样的单元格时，将该单元格与同一行中的其他指定列一起写入新工作簿。

例如，解析下表，我正在尝试使用 openpyxl 在列 A 中搜索“幻灯片 2”。当为特定行找到此值时，该单元格将与同一行的 C 列和 D 列中的值一起写入新工作簿。

    A          B       C       D

1   Slide      Data1   Data2   Data3

2   Slide 1    1       2       3

3   Slide 2    4       5       6

4   Slide 2    7       8       9

会写：

    A          B       C       D

2   Slide 2    5       6

3   

4

...或一些类似的格式。

我还希望用下一个文件中的数据填充 D 和 E 列，然后用文件中的数据填充 F 和 G （依此类推），但我可能可以弄清楚那部分。

我试过了：

from openpyxl import load_workbook

wb = load_workbook(filename = r'test108.xlsx')

ws = wb.worksheets[0]

dest_filename = r'output.xlsx'

for x in range (0, 100): #0-100 as proof of concept before parsing entire worksheet
    if ws.cell(row = x, column =26) == ‘some_image.jpg':
        print (ws.cell(row =x, column =26), ws.cell(row = x, column = 10), ws.cell(row = x, column = 17))

wb.save = dest_filename

还添加以下内容以尝试在内存中创建一个工作表，以在其中操作单元格：

for i in range (0, 30):
    for j in range (0, 100):
        print (ws.cell(row =i, column=j))

...两者都有细微的变化，但它们都输出原始文件的副本。

我已经阅读并重新阅读了 openpyxl 的文档，但无济于事。这里的论坛上似乎也没有任何类似的问题。

任何正确操作和写入数据的见解将不胜感激。我也希望这可以帮助其他试图理解庞大数据集的人。提前致谢！

我在 Windows 7 上运行 Python3.3.2（64 位）和 openpyxl-1.6.2。数据最初为 .csv 格式，因此如果有帮助，可以导出为 .xls 或其他格式。我简要地研究了 xlutils（使用 xlwt 和 xlrd），但 openpyxl 对 xlsx 文件效果更好。

编辑

非常感谢@MikeMüller 指出我需要两个工作簿来传输数据。这更有意义。

我现在有以下内容，但它仍然返回一个空工作簿。原始单元格不是空白的。（注释行是为了简化 - 当然没有缩进 - 但无论哪种方式代码都不成功。）

import openpyxl

wb = openpyxl.load_workbook(filename = r'test108.xlsx')
ws = wb.worksheets[0]

wb_out = openpyxl.Workbook()
ws_out = wb_out.worksheets[0]

#n = 1

#for x in range (0, 1000):
    #if ws.cell(row = x, column = 27) == '7.image2.jpg':
        ws_out.cell(row = n, column = 1) == ws.cell(row = x, column = 26) #x changed
        ws_out.cell(row = n, column = 2) == ws.cell(row = x, column = 10) #x changed
        ws_out.cell(row = n, column = 3) == ws.cell(row = x, column = 17) #x changed
        #n += 1

wb_out.save('output108.xlsx')

编辑 2

我已经更新了代码以包含单元格的 .value，但它仍然返回一个空白工作簿。

import openpyxl

wb = openpyxl.load_workbook(filename = r'test108.xlsx')
ws = wb.worksheets[0]

wb_out = openpyxl.Workbook()
ws_out = wb_out.worksheets[0]

n = 1

for x in range (0, 1000):
    if ws.cell(row=x, column=27).value == '7.Image001.jpg':
        ws_out.cell(row=n, column=1).value = ws.cell(row=x, column=27).value
        ws_out.cell(row=n, column=2).value = ws.cell(row=x, column=10).value
        ws_out.cell(row=n, column=3).value = ws.cell(row=x, column=17).value
        n += 1

wb_out.save('output108.xlsx')

下一个遇到麻烦的人的总结：

您需要在内存中创建两个工作表。一个用于导入您的文件，另一个用于写入新的工作簿文件。

使用 cell.value 调用函数将输入的文本提取到导入工作簿的每个单元格中，并将其设置为导出工作簿中所需的单元格。

确保从零开始计算行和列。

score 3 · Accepted Answer

您正在错误地进行单元分配。这是应该工作的：

import openpyxl

wb = openpyxl.load_workbook(filename = r'test108.xlsx')
ws = wb.worksheets[0]

wb_out = openpyxl.Workbook()
ws_out = wb_out.worksheets[0]

n = 1

for x in range (0, 1000):
    if ws.cell(row=x, column=27).value == '7.image2.jpg':
        ws_out.cell(row=n, column=1).value = ws.cell(row=x, column=26).value #x changed
        ws_out.cell(row=n, column=2).value = ws.cell(row=x, column=10).value #x changed
        ws_out.cell(row=n, column=3).value = ws.cell(row=x, column=17).value #x changed
        n += 1

wb_out.save('output108.xlsx')

score 3 · Accepted Answer

您需要打开第二个笔记本进行写作：

import openpyxl
wb_out = openpyxl.Workbook(dest_filename)
ws_out = wb_out.worksheets[0]

把它放在你的循环中：

ws_out.cell('cell indices here').value = desired_value

保存您的文件：

writer = openpyxl.ExelWriter(workbook=wb_out)
writer.save(dest_filename)

python - 使用 Openpyxl 条件解析和输出 xlsx 文件

2 回答 2

Related

Reference