问题标签 [chardet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
861 浏览

python - 解码未知字符串

我有一个数据源,我无法控制,它发送具有不同编码的字符串,我无法提前知道编码!我需要知道能够以我理解和控制的格式正确解码和正确存储的格式,比如说 UTF-8。

例如:

  • “J'ai déjÃ\xa0 un problème, après...je ne sais pas”

应该读

  • “J'ai déjà un problème, après...je ne sais pas”

我试过的:

通过反复试验,我发现编码是“iso-8859-1”

我想要/需要的是自动找到“iso-8859-1”!

我试着用chardet!

但是......因为它是一个字符串...... chardet 不接受它!而且,我很惭愧地承认,但我没有设法将字符串转换为 chardet 接受的东西!

为什么不单解码?!?

0 投票
1 回答
526 浏览

python - chardet.detect 返回空语言

我正在使用 chardet.detect 来检测字符串的语言,就像这里建议的解决方案之一一样

我的代码如下所示:

我得到的结果是这样的:

我的预期结果应该是这样的:

我更喜欢使用 chardet 作为我的解决方案,因为我已经在我的应用程序中导入了它,并且我希望它尽可能的纤细

0 投票
1 回答
106 浏览

python-3.x - 简单的 UTF-16-LE 文本文件上的 chardet

我尝试使用 chardet 包检测 Python 3 中简单 UTF-16-LE 文本文件的编码,使用以下代码:

rawdata文件内容)如下:

上面代码的结果如下:

为什么chardet100% 确定文本文件是 ascii,而它显然是 UTF-16?

0 投票
0 回答
1493 浏览

import - Python 导入 pdfplumber 错误“ModuleNotFoundError: No module named 'chardet'”

在 Python3 中导入 pdfplumber 时遇到错误,表明模块 chardet 丢失。但是,从 cmd 运行 pip list 确认已安装包,版本 3.0.4。有人有类似的经历吗?有什么决议吗?

错误信息:

错误:没有名为 chardet 的模块

0 投票
1 回答
135 浏览

python - Python:chardet.detect 带有一个大的二进制对象

我从网页中获得了一些大文件。它们是二进制的。我需要扫描它们以检测它们的编码,因为 chardet.detect 让我的脚本太慢了。我很难使用 readline 但我不能因为我只有二进制文件。可以在二进制对象上执行类似 readline 的操作吗?

0 投票
0 回答
21 浏览

python - 如何使用 Python 进行字符编码和检测,chardet

如何通过更正我的代码来解码电子邮件的主题?

例如 =?iso-8859-1?q?this=20is=20some=20text?=但需要得到 这是一些文本

标头电子邮件

0 投票
0 回答
35 浏览

python - 在列表中识别哪些数据不是 UTF-8 格式

我正在使用 CSV 文件通过 AWS 将数据摄取到我的 postgres 数据库中,我遇到了一些问题,其中一些数据不是 UTF-8 格式。我想确定我的数据中的哪些行导致了问题,以便我可以从源头解决。

我一直在尝试使用 chardet 来给我我需要的东西,但似乎无法让它逐行输出编码类型。我也尝试使用下面的,类似于 chardet 会告诉我整个文件是否是特定编码,但不是哪些行导致问题

任何帮助表示赞赏!

导致以下问题的示例文本:

0 投票
0 回答
18 浏览

pandas - 使用熊猫读取 csv 文件时出现 UnicodeDecodeError

我已经使用chardet来识别csv文件的编码类型,代码如下:

它显示输出: {'confidence': 1.0, 'encoding': 'ascii', 'language': ''}

但是当我使用下面的代码读取相同的文件时:

我得到错误:

有什么帮助吗?