0

首先,感谢您花时间帮助我!

我目前正在使用python解决机器学习问题,我必须在一个大文本文件中提取几个特定部分来训练分类算法。然后必须以 CSV 格式保存文本,并从 Excel 表中保存相应的 ID-num 和标签/类别。

CSV 文件应如下所示:https ://imgur.com/a/3cntJlL

excel 表包含许多列,其中仅应使用 ID 号和标签列。

在这里你可以看到一些excel表:https ://imgur.com/a/AZlWdeE

IDNUM列是将 Excel 工作表连接到特定文本的 ID 号。AType1列是相应的标签,也必须保存

在这里您可以看到其中的一些文本文件:https ://imgur.com/a/Yns8HAC

应该提取的文本从单词“Text:”到两个“*”(星号)在两行中紧挨着的位置。如图所示,ID-num 位于该部分的上方。

我一直在尝试拆分文档,但我似乎可以弄清楚如何制作包含来自 Excel 工作表和文本文件的信息的 CSV 文件。最好是制作一个可以在一次运行中执行此操作的脚本,然后可能会遍历几个大文本文件。

所以,我的问题是创建一个脚本,它可以:

  1. 将 excel 单元格内容(ID 号)与文本匹配
  2. 提取两个分隔符之间的一段文本(“Text:”和“* \n *”)
  3. 将文本、ID 号和标签保存在 CSV 文件中。

我希望有人可以帮助我。我处于使用 python 的初学者水平,所以制作这种脚本非常具有挑战性。

期待听到您的想法!

// 拉斯穆斯

4

1 回答 1

1

熟悉 pandas 库对您有好处。

Pandas ( https://pandas.pydata.org/docs/ ) 将允许您将 CSV 文件读入所谓的数据框并按列名和行操作数据。您还可以将结果放入 pandas 数据框并将结果写入 CSV 文件。

于 2020-04-21T15:09:37.560 回答