我正在寻找一种将 Word 文件中的数据提取/抓取到数据库中的方法。我们的公司程序在 MS Word 文件中记录了与客户的会议纪要,主要是由于历史和惯性。
我希望能够将这些会议纪要中的操作项提取到数据库中,以便我们可以从 Web 界面访问它们,将它们转换为任务并在它们完成时更新它们。
这是最好的方法:
- 从 Word 内部创建 CSV 然后上传到数据库的 VBA 宏?
- Word 中的 VBA 宏与 DB 的连接(如何从 VBA 连接到 MySQL?)
- Python脚本通过win32com然后上传到数据库?
最后一个对我很有吸引力,因为 Web 界面是用 Django 构建的,但我从未使用过 win32com 或尝试从 python 编写 Word 脚本。
编辑:我已经开始使用 VBA 提取文本,因为它使处理 Word 对象模型更容易一些。我遇到了一个问题 - 所有文本都在表格中,当我从我想要的 CELLS 中拉出字符串时,我在每个字符串的末尾得到一个奇怪的小方框字符。我的代码如下所示:
sFile = "D:\temp\output.txt"
fnum = FreeFile
Open sFile For Output As #fnum
num_rows = Application.ActiveDocument.Tables(2).Rows.Count
For n = 1 To num_rows
Descr = Application.ActiveDocument.Tables(2).Cell(n, 2).Range.Text
Assign = Application.ActiveDocument.Tables(2).Cell(n, 3).Range.Text
Target = Application.ActiveDocument.Tables(2).Cell(n, 4).Range.Text
If Target = "" Then
ExportText = ""
Else
ExportText = Descr & Chr(44) & Assign & Chr(44) & _
Target & Chr(13) & Chr(10)
Print #fnum, ExportText
End If
Next n
Close #fnum
小控制字符框是怎么回事?Word 是否有某种字符代码?