python - 如何将 excel-sheet 单元格（使用 ID 号）与文本文件中的数字匹配，然后提取并保存带有 id 和标签的文本为 csv

Question

首先，感谢您花时间帮助我！

我目前正在使用python解决机器学习问题，我必须在一个大文本文件中提取几个特定部分来训练分类算法。然后必须以 CSV 格式保存文本，并从 Excel 表中保存相应的 ID-num 和标签/类别。

excel 表包含许多列，其中仅应使用 ID 号和标签列。

在这里你可以看到一些excel表：https ://imgur.com/a/AZlWdeE

IDNUM列是将 Excel 工作表连接到特定文本的 ID 号。AType1列是相应的标签，也必须保存。

在这里您可以看到其中的一些文本文件：https ://imgur.com/a/Yns8HAC

应该提取的文本从单词“Text：”到两个“*”（星号）在两行中紧挨着的位置。如图所示，ID-num 位于该部分的上方。

我一直在尝试拆分文档，但我似乎可以弄清楚如何制作包含来自 Excel 工作表和文本文件的信息的 CSV 文件。最好是制作一个可以在一次运行中执行此操作的脚本，然后可能会遍历几个大文本文件。

所以，我的问题是创建一个脚本，它可以：

我希望有人可以帮助我。我处于使用 python 的初学者水平，所以制作这种脚本非常具有挑战性。

期待听到您的想法！

// 拉斯穆斯

score 1 · Accepted Answer

熟悉 pandas 库对您有好处。

Pandas ( https://pandas.pydata.org/docs/ ) 将允许您将 CSV 文件读入所谓的数据框并按列名和行操作数据。您还可以将结果放入 pandas 数据框并将结果写入 CSV 文件。

1 回答 1