python - 使用 xlrd 读取包含中文和/或印地语字符的 Excel xls 文件

Question

http://scienceoss.com/read-excel-files-from-python/comment-page-1/#comment-1051

在上面的链接中，我使用此实用程序来读取 XLS 文件。如果 XLS 文件包含不同的语言字符，如中文或印地语，则无法正确输出。有解决方法吗？

谷歌搜索后，我发现了这个：

import xlrd

def upload_xls(dir,file,request):
    try:
        global msg
        global row_num
        row_num = []
        header_arr = []
        global file_path
        file_path = dir
        #reader = csv.reader(open(file), delimiter='#', quotechar='"')
        book = xlrd.open_workbook('dodgy.xls',encoding='cp1252')   ##To specify UTF8-encoding
        wb.sheet_names()
        sh =  wb.sheet_by_index(0)
        valid_xl_format = 0
        invalid_xl_format = 0
     except:
        print "Error

但是行中有一个错误book = open_workbook('dodgy.xls',encoding='cp1252')：

TypeError: open_workbook() got an unexpected keyword argument 'encoding'

score 10 · Accepted Answer

[dis]claimer: 我是 xlrd 的作者。

如果 xls 包含不同的语言字符，如中文或印地语。它不会输出确切的措辞。是否有解决方法..

encoding_override 参数（如文档中所述）仅用于旧文件（由早于 Excel 97（即 1997 年）的 Excel 生成），并且仅在内部记录的“代码页”丢失或不正确时使用。

注意：带有中文字符的旧文件：用 'cp1252' 覆盖肯定会引发异常。

注意：带有“印地语”（天城文？）字符的旧文件：不太可能......据我所知，任何 ISCII 脚本都没有官方支持的代码页，而且我还没有听说过任何非官方的代码页。非常欢迎有关此主题和/或示例文件的任何信息。

Excel 97 及更高版本以（有效）UTF-16LE 记录所有文本数据。如果文件是有效的 Excel-97 或更高版本的文件，则忽略 encoding_override。

无论生成该文件的 Excel 版本是什么，（如文档所述）xlrd 都会返回 unicode 字符串。您的问题更有可能与您如何显示或转换这些 unicode 字符串有关。

如需进一步帮助，请编辑您的问题以显示实际输出的示例以及“确切的措辞”。

score 6 · Accepted Answer

根据 xlrd模块文档，正确的参数是：encoding_override="cp1252"而不是encoding="cp1252"。

从您导入 xlrd 模块的方式来看，您应该调用该函数，xlrd.open_workbook但在示例代码中您直接使用该函数，就好像您使用过from xlrd import *.

score 1 · Accepted Answer

标准库中有一个 csv 模块，用于处理 Python 3.1 中的 unicode。

警告：在 Python 2.x 中，csv 库不处理unicode。

score 0 · Accepted Answer

有一个类似的问题。答案是输出导致问题，而不是 XLRD。

回答如何将脚本设置为 UTF-8 -> https://stackoverflow.com/a/17628350/713

python - 使用 xlrd 读取包含中文和/或印地语字符的 Excel xls 文件

4 回答 4

Related

Reference