php - 如果它是变音符号，fgetcsv 正在吃字符串的第一个字母

Question

我正在将 Excel 生成的 CSV 文件中的内容导入 XML 文档，例如：

$csv = fopen($csvfile, r);
$words = array();

while (($pair = fgetcsv($csv)) !== FALSE) {
    array_push($words, array('en' => $pair[0], 'de' => $pair[1]));
}

插入的数据是英语/德语表达。

我将这些值插入 XML 结构并输出 XML，如下所示：

$dictionary = new SimpleXMLElement('<dictionary></dictionary>');
//do things
$dom = dom_import_simplexml($dictionary) -> ownerDocument;
$dom -> formatOutput = true;

header('Content-encoding: utf-8'); //<3 UTF-8
header('Content-type: text/xml'); //Headers set to correct mime-type for XML output!!!!

echo $dom -> saveXML();

这工作正常，但我遇到了一个非常奇怪的问题。当 String 的第一个字母是元音变音时（如Österreichor Ägypten），该字符将被省略，导致gyptenor sterreich。如果 Umlaut 位于字符串 ( Russische Föderation) 的中间，则它会正确传输。类似ß或é其他的事情也是如此。

所有文件均采用 UTF-8 编码并以 UTF-8 提供。

这对我来说似乎很奇怪和类似错误，但也许我错过了一些东西，这里有很多聪明人。

score 4 · Accepted Answer

好的，所以这似乎是fgetcsv.

我现在自己处理 CSV 数据（有点麻烦），但它正在工作，我根本没有任何编码问题。

这是我正在做的（尚未优化的版本）：

$rawCSV = file_get_contents($csvfile);

$lines = preg_split ('/$\R?^/m', $rawCSV); //split on line breaks in all operating systems: http://stackoverflow.com/a/7498886/797194

foreach ($lines as $line) {
    array_push($words, getCSVValues($line));
}

来自getCSVValues这里，需要处理这样的 CSV 行（逗号！）：

"I'm a string, what should I do when I need commas?",Howdy there

看起来像：

function getCSVValues($string, $separator=","){

    $elements = explode($separator, $string);

    for ($i = 0; $i < count($elements); $i++) {
        $nquotes = substr_count($elements[$i], '"');
        if ($nquotes %2 == 1) {
            for ($j = $i+1; $j < count($elements); $j++) {
                if (substr_count($elements[$j], '"') %2 == 1) { // Look for an odd-number of quotes
                    // Put the quoted string's pieces back together again
                    array_splice($elements, $i, $j-$i+1,
                        implode($separator, array_slice($elements, $i, $j-$i+1)));
                    break;
                }
            }
        }
        if ($nquotes > 0) {
            // Remove first and last quotes, then merge pairs of quotes
            $qstr =& $elements[$i];
            $qstr = substr_replace($qstr, '', strpos($qstr, '"'), 1);
            $qstr = substr_replace($qstr, '', strrpos($qstr, '"'), 1);
            $qstr = str_replace('""', '"', $qstr);
        }
    }
    return $elements;

}

相当多的解决方法，但它似乎工作正常。

编辑：

还有一个已提交的错误，显然这取决于语言环境设置。

score 3 · Accepted Answer

如果字符串来自 Excel（如果它在字符串的开头，我遇到了字母 ø 消失的问题）......然后这修复了它：

setlocale(LC_ALL, 'en_US.ISO-8859-1');

score 2 · Accepted Answer

如果中间的其他变音符号看起来没问题，那么这不是基本编码问题。它发生在行首的事实可能表明与换行符不兼容。也许 CSV 是使用不同的换行编码生成的。

在不同操作系统之间移动文件时会发生这种情况：

Windows：（\r\n字符 13 和 10）
Linux：（\n字符 10）
Mac OS：（\r字符 13）

如果我是你，我会确认换行符。

如果在 Linux 中：hexdump -C filename | more并检查文档。

sed如果是这种情况，您可以使用表达式更改换行符。

希望有帮助！

score 2 · Accepted Answer

一个更简单的解决方法（但很脏）：

//1. replace delimiter in input string with delimiter + some constant
$dataLine = str_replace($this->fieldDelimiter, $this->fieldDelimiter . $this->bugFixer, $dataLine);

//2. parse
$parsedLine = str_getcsv($dataLine, $this->fieldDelimiter);

//3. remove the constant from resulting strings.
foreach ($parsedLine as $i => $parsedField)
{
    $parsedLine[$i] = str_replace($this->bugFixer, '', $parsedField);
}

score 0 · Accepted Answer

可能是某种utf8_encode()问题。文档页面上的此评论似乎表明，如果您在已编码时对变音符号进行编码，则可能会导致问题。

也许测试一下数据是否已经用 utf-8 编码mb_detect_encoding()。

php - 如果它是变音符号，fgetcsv 正在吃字符串的第一个字母

5 回答 5

Related

Reference