php - file_get_contents() 为上传的 word 文档返回无效字符

Question

我正在尝试从上传的文本文件中获取前 1,000 个字符。我正在做：

if($file->simpletype=="document"){
    //get first 1000 chars in here
    $snippet = file_get_contents($_FILES['upload']['tmp_name'], false, null, -1, 1000);
    file_put_contents('/var/www/my_logs/log.log', $snippet);
    $file->snippet = $snippet;
}

这适用于 .txt 文件，我可以使用 gedit 打开和读取 log.log 文件。但是对于.doc、.docx、.odt和.pdf文件，file_get_contents()返回乱码，例如：PK\00\00\00\

我尝试了在stackoverflow上找到的另一种解决方案：

function file_get_contents_utf8() {
    $content = file_get_contents($_FILES['upload']['tmp_name'], false, null, -1, 1000);
    return mb_convert_encoding($content, 'UTF-8',
             mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
}

但我得到相同的结果。有任何想法吗？谢谢！

score 2 · Accepted Answer

您正在尝试从不使用纯文本格式的文件中读取文本。

要阅读 doc/docx 文件，您需要使用PHPDocx或 http://phpword.codeplex.com之类的工具。

有关解析 PDF，请参阅此问题的答案。

score 1 · Accepted Answer

这永远不会适用于非纯文本文件。您需要先从 doc/pdf/odt 文档中获取纯文本，然后才能操作该文本。只需在记事本等简单的文本编辑器中打开任何这些文档并查看其内容。

对于 Word 文档，您可以从http://phpword.codeplex.com/开始。还要寻找可用于从这些文件中提取内容的其他库。

php - file_get_contents() 为上传的 word 文档返回无效字符

2 回答 2

Related

Reference