问题标签 [chardet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1629 浏览

python - Big5 上的 chardet 显然是错误的

我正在解码一个大型(大约千兆字节)平面文件数据库,它随意混合字符编码。到目前为止, python 模块chardet在识别编码方面做得很好,但如果遇到绊脚石......

chardet 报告对它的编码选择非常有信心,但它不解码......还有其他明智的方法吗?

0 投票
3 回答
7761 浏览

python - 使用 lxml 解析 RSS 时出现编码错误

我想用lxml解析下载的RSS,但不知道如何处理UnicodeDecodeError?

但我收到一个错误:

0 投票
1 回答
2677 浏览

python - chardet 在 python 3 中运行不正确


我在python 3.2中使用chardet 2.01,源代码像这个网站http://getpython3.com/diveintopython3/case-study-porting-chardet-to-python-3.html

可以在这里下载
http://jaist.dl.sourceforge.net/project/cygwin-ports/release-2/Python/python3-chardet/python3-chardet-2.0.1-2.tar.bz2

我使用 lxml2 解析 html 以获取一些字符串
,并使用下面的代码来检测编码

但是出现错误

name是一个字符串对象
将字符串转换为字节意味着用'utf-8','big5'等编码对其进行编码
,charset会检测你所做的编码......不是原始字符串的编码
我不知道这个问题...

0 投票
1 回答
464 浏览

python - 意大利语检测为 iso-8859-2

我正在使用 chardet 来检测文本文件的编码,包括意大利语。问题是它始终将它们的编码检测为 iso-8859-2,而正确的检测将是 iso-8859-1。有人知道修复吗?我的本地语言设置为波兰语?会不会影响检测?

0 投票
1 回答
541 浏览

ruby-on-rails - 如何将文件编码为 Rails 3 的 UTF-8?

我一直在处理 Outlook 导入(在导出到 Outlook 格式中链接),但我遇到了编码问题。我通过导出我的 LinkedIn 联系人获得的 Outlook 格式 CSV 不是 UTF-8。调用. ñ_ mongoid_search_ str.to_s.mb_chars.normalize我认为编码是问题,因为当我打电话时mb_chars见第一个代码示例)。我不确定这是否是 gem 中的错误,但我还是被建议清理数据。

在 File Picker 中,我尝试使用他们新的、社区支持的 gem 来上传 CSV 数据。我尝试了三种编码检测器和转码器:

  1. Python 库的 Ruby 端口chardet
    • 没有按预期工作
    • 端口仍然包含 Python 代码,阻止它在我的应用程序中运行
  2. rchardet19宝石
    • 放心检测iso-8859.8/1
    • 尝试使用 Iconv 转码,但在“非法字符”上崩溃ñ
  3. Charlock_Holmes宝石
    • 放心检测windows-1252_33/100
    • rchardet我认为那是实际的编码,并且iso-8859是基于此的。
    • 这个 gem 使用 ICU 并有一个支持 Heroku 的维护分支“bundle-icu”。当我尝试使用 转码时charlock,我收到错误U_FILE_ACCESS_ERROR,ICU 错误代码表示“无法打开文件”

有人知道在这里做什么吗?

0 投票
2 回答
5941 浏览

python - Python中的编码检测,是否使用chardet库?

我正在编写一个应用程序,它需要大量文本作为输入,可以是任何字符编码,我想将它全部保存在 UTF-8 中。我不会收到或无法信任随数据定义的字符编码(如果有的话)。

我有一段时间使用 Pythons 库 chardet 来检测原始字符编码http://pypi.python.org/pypi/chardet,但最近遇到了一些问题,我注意到它不支持斯堪的纳维亚编码(例如iso-8859-1)。除此之外,获得结果需要大量的时间/CPU/内存。2MB 文本文件约 40 秒。

我尝试只使用标准的 Linux 文件

到目前为止,我的所有文件都为我提供了 100% 的结果。对于 2MB 的文件,这大约需要 0.1 秒。它还支持斯堪的纳维亚字符编码。

所以,我想使用文件的优势是显而易见的。有什么缺点?我错过了什么吗?

0 投票
0 回答
962 浏览

python - Python修复损坏的编码

我有一个带有 django 播放列表管理的小型 icecast2 家庭服务器。另外,我有很多编码损坏的 mp3。首先,我试图在 python 上找到一些编码修复工具,但没有找到任何对我有用的东西(python-ftfynltk - 它不支持 unicode 输入)。

beets像瑞士刀一样使用 pip 来解析媒体标签,它非常简单,而且我认为,对于大多数情况来说,它几乎就足够了。

对于我使用的字符集检测chardet,但它在短字符串上有一些问题,所以我对遇到的编码使用了一些强制调整。我想,如果编码错误,那么所有标签都是错误的,所以我先收集所有使用过的编码。

以下是调整:

这意味着,如果我们同时拥有MacCyrillicwindows-1251机会,我们应该更喜欢windows-1251.

媒体文件解析:

以及用法例如:

是一个完整的脚本。它可以在解析过程中显示专辑的 ascii 封面。

似乎它可以工作,但是在 python 上是否有任何维护的瑞士刀编码修复库?

0 投票
1 回答
1659 浏览

python - chardet 安装失败

我下载了一个 chardet 模块,将其放入d:\\并希望将其安装在 python 中,所以我使用 cmd :

c:\\Python27\python.exe d:\\chardet\setup.py

win 命令说:

Traceback (most recent call last): File "d:\\chardet\setup.py", line 13, in <module> long_description=open('README.rst').read(), IOError: [Errno 2] No such file or directory: 'README.rst'

但我确信文件' README.rst'在目录中d:\\chardet

我不知道如何处理它,希望能得到你的帮助。

0 投票
1 回答
1308 浏览

python - 在 Windows 中使用 BeautifulSoup4、Chardet 和 Python 3.3 解析页面时出错

当我尝试调用 BeautifulSoup(page) 时出现以下错误

我在 Windows 7 中运行 Python 3.3,我通过下载 .tar.gz 从 setup.py 安装了 bs4。我已经安装了 pip,然后通过执行 pip.exe install chardet 安装了 chardet。我的 chardet 版本是 2.2.1。Bs4 适用于其他网址。

这是代码

我期待你的回答

0 投票
1 回答
20632 浏览

python - 在 Python 中,如何从 chardet 模块开始?

我想尝试一些使用chardet 模块的代码。这是我在网上找到的代码:

但是要尝试此代码,我必须获取 chardet 模块:但是,我有两个选择: https ://pypi.python.org/pypi/chardet#downloads

  • chardet-2.2.1-py2.py3-none-any.whl (md5) Python Wheel
  • chardet-2.2.1.tar.gz (md5) Python 源码

我选择了 Python Wheel 并将这个文件放在我的 Python27 目录中。但仍然无法正常工作。

所以我的问题是: - 要下载哪种类型的 chardet 文件 + 将这个文件放在哪里让 Python 不打印这个错误: Traceback(最近一次调用最后一次):文件“C:/Python27/s7/test5.py”,行2、在import chardet ImportError: No module named chardet

注意:(我在 Python 2.7 上)

提前感谢您的任何帮助或建议!:D

编辑1:对不起,我是一个非常初学者,但实际上它是必须选择的python源!特别是使用 setup.py 安装,但它对我不起作用!我打开了 Windows 命令并写了 chardet-2.2.1(unzipped) 的路径,然后我写了:python setup.py install,但它不起作用...:S

我觉得还是开个新课题比较好。