问题标签 [chardet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Big5 上的 chardet 显然是错误的
我正在解码一个大型(大约千兆字节)平面文件数据库,它随意混合字符编码。到目前为止, python 模块chardet
在识别编码方面做得很好,但如果遇到绊脚石......
chardet 报告对它的编码选择非常有信心,但它不解码......还有其他明智的方法吗?
python - 使用 lxml 解析 RSS 时出现编码错误
我想用lxml解析下载的RSS,但不知道如何处理UnicodeDecodeError?
但我收到一个错误:
python - chardet 在 python 3 中运行不正确
我在python 3.2中使用chardet 2.01,源代码像这个网站http://getpython3.com/diveintopython3/case-study-porting-chardet-to-python-3.html
我使用 lxml2 解析 html 以获取一些字符串
,并使用下面的代码来检测编码
但是出现错误
name
是一个字符串对象
将字符串转换为字节意味着用'utf-8','big5'等编码对其进行编码
,charset会检测你所做的编码......不是原始字符串的编码
我不知道这个问题...
python - 意大利语检测为 iso-8859-2
我正在使用 chardet 来检测文本文件的编码,包括意大利语。问题是它始终将它们的编码检测为 iso-8859-2,而正确的检测将是 iso-8859-1。有人知道修复吗?我的本地语言设置为波兰语?会不会影响检测?
ruby-on-rails - 如何将文件编码为 Rails 3 的 UTF-8?
我一直在处理 Outlook 导入(在导出到 Outlook 格式中链接),但我遇到了编码问题。我通过导出我的 LinkedIn 联系人获得的 Outlook 格式 CSV 不是 UTF-8。调用. ñ
_ mongoid_search
_ str.to_s.mb_chars.normalize
我认为编码是问题,因为当我打电话时mb_chars
(见第一个代码示例)。我不确定这是否是 gem 中的错误,但我还是被建议清理数据。
在 File Picker 中,我尝试使用他们新的、社区支持的 gem 来上传 CSV 数据。我尝试了三种编码检测器和转码器:
- Python 库的 Ruby 端口
chardet
- 没有按预期工作
- 端口仍然包含 Python 代码,阻止它在我的应用程序中运行
rchardet19
宝石- 放心检测
iso-8859
。.8/1
- 尝试使用 Iconv 转码,但在“非法字符”上崩溃
ñ
- 放心检测
Charlock_Holmes
宝石- 放心检测
windows-1252
_33/100
rchardet
我认为那是实际的编码,并且iso-8859
是基于此的。- 这个 gem 使用 ICU 并有一个支持 Heroku 的维护分支“bundle-icu”。当我尝试使用 转码时
charlock
,我收到错误U_FILE_ACCESS_ERROR
,ICU 错误代码表示“无法打开文件”
- 放心检测
有人知道在这里做什么吗?
python - Python中的编码检测,是否使用chardet库?
我正在编写一个应用程序,它需要大量文本作为输入,可以是任何字符编码,我想将它全部保存在 UTF-8 中。我不会收到或无法信任随数据定义的字符编码(如果有的话)。
我有一段时间使用 Pythons 库 chardet 来检测原始字符编码http://pypi.python.org/pypi/chardet,但最近遇到了一些问题,我注意到它不支持斯堪的纳维亚编码(例如iso-8859-1)。除此之外,获得结果需要大量的时间/CPU/内存。2MB 文本文件约 40 秒。
我尝试只使用标准的 Linux 文件
到目前为止,我的所有文件都为我提供了 100% 的结果。对于 2MB 的文件,这大约需要 0.1 秒。它还支持斯堪的纳维亚字符编码。
所以,我想使用文件的优势是显而易见的。有什么缺点?我错过了什么吗?
python - Python修复损坏的编码
我有一个带有 django 播放列表管理的小型 icecast2 家庭服务器。另外,我有很多编码损坏的 mp3。首先,我试图在 python 上找到一些编码修复工具,但没有找到任何对我有用的东西(python-ftfy,nltk - 它不支持 unicode 输入)。
我beets
像瑞士刀一样使用 pip 来解析媒体标签,它非常简单,而且我认为,对于大多数情况来说,它几乎就足够了。
对于我使用的字符集检测chardet
,但它在短字符串上有一些问题,所以我对遇到的编码使用了一些强制调整。我想,如果编码错误,那么所有标签都是错误的,所以我先收集所有使用过的编码。
以下是调整:
这意味着,如果我们同时拥有MacCyrillic
和windows-1251
机会,我们应该更喜欢windows-1251
.
媒体文件解析:
以及用法例如:
这是一个完整的脚本。它可以在解析过程中显示专辑的 ascii 封面。
似乎它可以工作,但是在 python 上是否有任何维护的瑞士刀编码修复库?
python - chardet 安装失败
我下载了一个 chardet 模块,将其放入d:\\
并希望将其安装在 python 中,所以我使用 cmd :
c:\\Python27\python.exe d:\\chardet\setup.py
win 命令说:
Traceback (most recent call last):
File "d:\\chardet\setup.py", line 13, in <module>
long_description=open('README.rst').read(),
IOError: [Errno 2] No such file or directory: 'README.rst'
但我确信文件' README.rst
'在目录中d:\\chardet
我不知道如何处理它,希望能得到你的帮助。
python - 在 Windows 中使用 BeautifulSoup4、Chardet 和 Python 3.3 解析页面时出错
当我尝试调用 BeautifulSoup(page) 时出现以下错误
我在 Windows 7 中运行 Python 3.3,我通过下载 .tar.gz 从 setup.py 安装了 bs4。我已经安装了 pip,然后通过执行 pip.exe install chardet 安装了 chardet。我的 chardet 版本是 2.2.1。Bs4 适用于其他网址。
这是代码
我期待你的回答
python - 在 Python 中,如何从 chardet 模块开始?
我想尝试一些使用chardet 模块的代码。这是我在网上找到的代码:
但是要尝试此代码,我必须获取 chardet 模块:但是,我有两个选择: https ://pypi.python.org/pypi/chardet#downloads
- chardet-2.2.1-py2.py3-none-any.whl (md5) Python Wheel
- chardet-2.2.1.tar.gz (md5) Python 源码
我选择了 Python Wheel 并将这个文件放在我的 Python27 目录中。但仍然无法正常工作。
所以我的问题是: - 要下载哪种类型的 chardet 文件 + 将这个文件放在哪里让 Python 不打印这个错误: Traceback(最近一次调用最后一次):文件“C:/Python27/s7/test5.py”,行2、在import chardet ImportError: No module named chardet
注意:(我在 Python 2.7 上)
提前感谢您的任何帮助或建议!:D
编辑1:对不起,我是一个非常初学者,但实际上它是必须选择的python源!特别是使用 setup.py 安装,但它对我不起作用!我打开了 Windows 命令并写了 chardet-2.2.1(unzipped) 的路径,然后我写了:python setup.py install,但它不起作用...:S
我觉得还是开个新课题比较好。