0

我想使用 AWS Textract 将我的图像转换为 python 中的表格并将其下载为 CSV。

因此,我在这里遵循了 AWS 的文档和示例代码: https ://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

显然,上面链接中的代码会将整数中的逗号分隔到另一列中。我将用图像和步骤来解释重现以下错误:

所以这是我的表格的图像形式的例子。 在此处输入图像描述

如果您想重现错误,请克隆 github 存储库中的代码并在您的 cmd/终端中键入以下代码

python textract_python_table_parser.py <your-image-filename.png>

错误如下:

在此处输入图像描述

正如您在 ["Amount (USD)"] 列中看到的,其中带有逗号的值将进入 ["Transaction Date"] 列。即使我在熊猫中阅读了 csv 文件也没有工作。

我想知道 GitHub 存储库中的哪一行代码将逗号分隔到另一列中

4

1 回答 1

3

刚刚发现在GitHub 链接中,对于第 114 行,只需在大括号中添加“”:

csv += '"{}"'.format(text) + ","

原因是将所有文本转换为字符串,因此 CSV 在格式化期间不会考虑字符串中的逗号。

于 2020-03-05T09:38:59.770 回答