我正在尝试获取 .doc .docx .odt 和 .pdf 类型文件的字数。这对于 .txt 文件来说非常简单,但是我怎样才能对提到的类型进行字数统计呢?
我在 Ubuntu 上使用 python django 并尝试在用户通过系统上传文件时对文档单词进行字数统计。
我正在尝试获取 .doc .docx .odt 和 .pdf 类型文件的字数。这对于 .txt 文件来说非常简单,但是我怎样才能对提到的类型进行字数统计呢?
我在 Ubuntu 上使用 python django 并尝试在用户通过系统上传文件时对文档单词进行字数统计。
首先,您需要阅读.doc .docx .odt和.pdf。
鉴于您可以对 .txt 文件执行此操作,我假设您知道如何计算单词,并且您只需要知道如何读取各种文件类型。看看这些库:
PDF: pypdf
doc/docx:这个问题,python-docx
odt:这里的例子