首先,感谢您花时间帮助我!
我目前正在使用python解决机器学习问题,我必须在一个大文本文件中提取几个特定部分来训练分类算法。然后必须以 CSV 格式保存文本,并从 Excel 表中保存相应的 ID-num 和标签/类别。
CSV 文件应如下所示:https ://imgur.com/a/3cntJlL
excel 表包含许多列,其中仅应使用 ID 号和标签列。
在这里你可以看到一些excel表:https ://imgur.com/a/AZlWdeE
IDNUM列是将 Excel 工作表连接到特定文本的 ID 号。AType1列是相应的标签,也必须保存。
在这里您可以看到其中的一些文本文件:https ://imgur.com/a/Yns8HAC
应该提取的文本从单词“Text:”到两个“*”(星号)在两行中紧挨着的位置。如图所示,ID-num 位于该部分的上方。
我一直在尝试拆分文档,但我似乎可以弄清楚如何制作包含来自 Excel 工作表和文本文件的信息的 CSV 文件。最好是制作一个可以在一次运行中执行此操作的脚本,然后可能会遍历几个大文本文件。
所以,我的问题是创建一个脚本,它可以:
- 将 excel 单元格内容(ID 号)与文本匹配
- 提取两个分隔符之间的一段文本(“Text:”和“* \n *”)
- 将文本、ID 号和标签保存在 CSV 文件中。
我希望有人可以帮助我。我处于使用 python 的初学者水平,所以制作这种脚本非常具有挑战性。
期待听到您的想法!
// 拉斯穆斯