“chardet”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1629 浏览

python - Big5 上的 chardet 显然是错误的

我正在解码一个大型（大约千兆字节）平面文件数据库，它随意混合字符编码。到目前为止， python 模块chardet在识别编码方面做得很好，但如果遇到绊脚石......

chardet 报告对它的编码选择非常有信心，但它不解码......还有其他明智的方法吗？

2011-01-19T04:19:52.587

0 投票

3 回答

7761 浏览

python - 使用 lxml 解析 RSS 时出现编码错误

我想用lxml解析下载的RSS，但不知道如何处理UnicodeDecodeError？

但我收到一个错误：

python rss lxml scraperwiki chardet

2011-04-27T23:44:11.650

0 投票

1 回答

2677 浏览

python - chardet 在 python 3 中运行不正确

我在python 3.2中使用chardet 2.01，源代码像这个网站http://getpython3.com/diveintopython3/case-study-porting-chardet-to-python-3.html

可以在这里下载
http://jaist.dl.sourceforge.net/project/cygwin-ports/release-2/Python/python3-chardet/python3-chardet-2.0.1-2.tar.bz2

我使用 lxml2 解析 html 以获取一些字符串
，并使用下面的代码来检测编码

但是出现错误

name是一个字符串对象
将字符串转换为字节意味着用'utf-8'，'big5'等编码对其进行编码
，charset会检测你所做的编码......不是原始字符串的编码
我不知道这个问题...

python encoding python-3.x chardet

2012-09-10T14:22:42.193

0 投票

1 回答

464 浏览

python - 意大利语检测为 iso-8859-2

我正在使用 chardet 来检测文本文件的编码，包括意大利语。问题是它始终将它们的编码检测为 iso-8859-2，而正确的检测将是 iso-8859-1。有人知道修复吗？我的本地语言设置为波兰语？会不会影响检测？

python encoding chardet

2012-10-10T15:27:17.910

0 投票

1 回答

541 浏览

ruby-on-rails - 如何将文件编码为 Rails 3 的 UTF-8？

我一直在处理 Outlook 导入（在导出到 Outlook 格式中链接），但我遇到了编码问题。我通过导出我的 LinkedIn 联系人获得的 Outlook 格式 CSV 不是 UTF-8。调用. ñ_ mongoid_search_ str.to_s.mb_chars.normalize我认为编码是问题，因为当我打电话时mb_chars（见第一个代码示例）。我不确定这是否是 gem 中的错误，但我还是被建议清理数据。

在 File Picker 中，我尝试使用他们新的、社区支持的 gem 来上传 CSV 数据。我尝试了三种编码检测器和转码器：

Python 库的 Ruby 端口chardet
- 没有按预期工作
- 端口仍然包含 Python 代码，阻止它在我的应用程序中运行
rchardet19宝石
- 放心检测iso-8859。.8/1
- 尝试使用 Iconv 转码，但在“非法字符”上崩溃ñ
Charlock_Holmes宝石
- 放心检测windows-1252_33/100
- rchardet我认为那是实际的编码，并且iso-8859是基于此的。
- 这个 gem 使用 ICU 并有一个支持 Heroku 的维护分支“bundle-icu”。当我尝试使用转码时charlock，我收到错误U_FILE_ACCESS_ERROR，ICU 错误代码表示“无法打开文件”

有人知道在这里做什么吗？

ruby-on-rails ruby ruby-on-rails-3 encoding chardet

2012-10-29T21:19:34.970

0 投票

2 回答

5941 浏览

python - Python中的编码检测，是否使用chardet库？

我正在编写一个应用程序，它需要大量文本作为输入，可以是任何字符编码，我想将它全部保存在 UTF-8 中。我不会收到或无法信任随数据定义的字符编码（如果有的话）。

我有一段时间使用 Pythons 库 chardet 来检测原始字符编码http://pypi.python.org/pypi/chardet，但最近遇到了一些问题，我注意到它不支持斯堪的纳维亚编码（例如iso-8859-1)。除此之外，获得结果需要大量的时间/CPU/内存。2MB 文本文件约 40 秒。

我尝试只使用标准的 Linux 文件

到目前为止，我的所有文件都为我提供了 100% 的结果。对于 2MB 的文件，这大约需要 0.1 秒。它还支持斯堪的纳维亚字符编码。

所以，我想使用文件的优势是显而易见的。有什么缺点？我错过了什么吗？

python encoding chardet

2012-11-27T19:51:27.073

0 投票

0 回答

962 浏览

python - Python修复损坏的编码

我有一个带有 django 播放列表管理的小型 icecast2 家庭服务器。另外，我有很多编码损坏的 mp3。首先，我试图在 python 上找到一些编码修复工具，但没有找到任何对我有用的东西（python-ftfy，nltk - 它不支持 unicode 输入）。

我beets像瑞士刀一样使用 pip 来解析媒体标签，它非常简单，而且我认为，对于大多数情况来说，它几乎就足够了。

对于我使用的字符集检测chardet，但它在短字符串上有一些问题，所以我对遇到的编码使用了一些强制调整。我想，如果编码错误，那么所有标签都是错误的，所以我先收集所有使用过的编码。

以下是调整：

这意味着，如果我们同时拥有MacCyrillic和windows-1251机会，我们应该更喜欢windows-1251.

媒体文件解析：

以及用法例如：

这是一个完整的脚本。它可以在解析过程中显示专辑的 ascii 封面。

似乎它可以工作，但是在 python 上是否有任何维护的瑞士刀编码修复库？

python encoding repair chardet

2013-01-03T00:36:13.233

0 投票

1 回答

1659 浏览

python - chardet 安装失败

我下载了一个 chardet 模块，将其放入d:\\并希望将其安装在 python 中，所以我使用 cmd ：

c:\\Python27\python.exe d:\\chardet\setup.py

win 命令说：

Traceback (most recent call last): File "d:\\chardet\setup.py", line 13, in <module> long_description=open('README.rst').read(), IOError: [Errno 2] No such file or directory: 'README.rst'

但我确信文件' README.rst'在目录中d:\\chardet

我不知道如何处理它，希望能得到你的帮助。

python installation chardet

2013-05-06T16:29:39.630

0 投票

1 回答

1308 浏览

python - 在 Windows 中使用 BeautifulSoup4、Chardet 和 Python 3.3 解析页面时出错

当我尝试调用 BeautifulSoup(page) 时出现以下错误

我在 Windows 7 中运行 Python 3.3，我通过下载 .tar.gz 从 setup.py 安装了 bs4。我已经安装了 pip，然后通过执行 pip.exe install chardet 安装了 chardet。我的 chardet 版本是 2.2.1。Bs4 适用于其他网址。

这是代码

我期待你的回答

python html windows beautifulsoup chardet

2013-05-26T06:44:38.663

0 投票

1 回答

20632 浏览

python - 在 Python 中，如何从 chardet 模块开始？

我想尝试一些使用chardet 模块的代码。这是我在网上找到的代码：

但是要尝试此代码，我必须获取 chardet 模块：但是，我有两个选择： https ://pypi.python.org/pypi/chardet#downloads

chardet-2.2.1-py2.py3-none-any.whl (md5) Python Wheel
chardet-2.2.1.tar.gz (md5) Python 源码

我选择了 Python Wheel 并将这个文件放在我的 Python27 目录中。但仍然无法正常工作。

所以我的问题是： - 要下载哪种类型的 chardet 文件 + 将这个文件放在哪里让 Python 不打印这个错误： Traceback（最近一次调用最后一次）：文件“C：/Python27/s7/test5.py”，行2、在import chardet ImportError: No module named chardet

注意：（我在 Python 2.7 上）

提前感谢您的任何帮助或建议！:D

编辑1：对不起，我是一个非常初学者，但实际上它是必须选择的python源！特别是使用 setup.py 安装，但它对我不起作用！我打开了 Windows 命令并写了 chardet-2.2.1(unzipped) 的路径，然后我写了：python setup.py install，但它不起作用...：S

我觉得还是开个新课题比较好。

python python-2.7 encoding character-encoding chardet

2014-01-20T11:15:46.553

问题标签 [chardet]

Reference