11

我有一个简单的脚本,它接受一个 CSV 文件并将每一行读入一个数组。然后我循环浏览第一行的每一列(在我的例子中,它包含调查的问题)并将它们打印出来。该调查使用法语,只要问题的第一个字符是特殊字符(é、ê、ç 等),fgetcsv 就会简单地忽略它。

值中间的特殊字符仅在它们是第一个字符时不受影响。

我试图调试这个,但我很困惑。我用文件的内容做了一个 var_dump,字符肯定在那里:

var_dump(utf8_encode(file_get_contents($_FILES['csv_file']['tmp_name'])));

这是我的代码:

if(file_exists($_FILES['csv_file']['tmp_name']) && $csv = fopen($_FILES['csv_file']['tmp_name'], "r"))
    {
        $csv_arr = array();

        //Populate an array with all the cells of the CSV file
        while(!feof($csv))
        {
            $csv_arr[] = fgetcsv($csv);
        }

        //Close the file, no longer needed
        fclose($csv);

        // This should cycle through the cells of the first row (questions)
        foreach($csv_arr[0] as $question)
        {
            echo utf8_encode($question) . "<br />";
        }

    }
4

4 回答 4

8

您在致电之前是否正确设置了您的语言环境fgetcsv()

setlocale(LC_ALL, 'fr_FR.UTF-8');

否则,fgetcsv()不是多字节安全的。

确保将其设置为出现在可用语言环境列表中的内容。在 linux 上(当然在 debian 上)你可以通过这样做来看到这一点

locale -a

你应该得到类似...

C
en_US.utf8
POSIX

对于 UTF8 支持,请选择最后带有 utf8 的编码。如果您的输入是用其他东西编码的,您将需要使用适当的语言环境 - 但请确保您的操作系统首先支持它。

如果您将语言环境设置为系统上不可用的语言环境,它将无济于事。

于 2010-02-10T17:36:17.200 回答
2

这种行为有一个错误报告,但显然它不是一个错误

于 2010-08-16T03:43:27.977 回答
1

您是否已经查看了fgetcsv 上的手册页?没有什么直接谈论这个特定问题,但是如果这里没有任何内容,一些贡献可能值得一看。

有这个,例如:

注意:此功能会考虑区域设置。如果 LANG 是例如 en_US.UTF-8,则此函数会错误地读取单字节编码的文件。

另外,看到它总是在行的开头,这真的是一个隐藏的换行问题吗?有这个:

注意:如果 PHP 在读取 Macintosh 计算机上或由 Macintosh 计算机创建的文件时无法正确识别行尾,启用 auto_detect_line_endings 运行时配置选项可能有助于解决问题。

您可能还想尝试使用不同的行结尾保存文件。

于 2010-02-10T17:36:01.000 回答
1

LANG我们使用set to看到了相同的结果C,并通过确保将这些值包含在引号中来解决它。例如,线

a,"a",é,"é",óú,"óú",ó&ú,"ó&ú"

通过时生成以下数组fgetcsv()

array (
  0 => 'a',
  1 => 'a',
  2 => '',
  3 => 'é',
  4 => '',
  5 => 'óú',
  6 => '&ú',
  7 => 'ó&ú',
)

当然,您必须通过将值加倍来转义值中的任何引号,但这比修复丢失的字符要少得多。

奇怪的是,输入文件的 UTF-8 和 cp1252 编码都会发生这种情况。

于 2012-01-26T19:37:52.047 回答