问题标签 [cp1251]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何使用javascript将西里尔字符转换为ASCII码
我真的需要一种将 CP1251 表中的所有字符转换为 0 到 255 的 ASCII 码的方法。到目前为止,我发现的唯一方法是 charCodeAt() 函数,它仅适用于高达 128 的代码。对于较高的代码,它发出一个对我不利的 Unicode 数字。
python - 如何将字符串从 CP-1251 转换为 UTF-8?
我正在使用诱变剂将 ID3 标签数据从CP-1251 / CP-1252转换为 UTF-8。在 Linux 中没有问题。但在 Windows 上,调用SetValue()
wx.TextCtrl 会产生错误:
UnicodeDecodeError:“ascii”编解码器无法解码位置 0 的字节 0xc3:序数不在范围内(128)
我从诱变剂中提取的原始字符串(假设为 CP-1251 编码)是:
我尝试将其转换为 UTF-8:
...甚至将默认编码从 ASCII 更改为 UTF-8:
...但我得到了同样的错误。
encoding - 在 intellij idea 中更改文件编码而不丢失信息
是否可以将文件的编码从 UTF-8 更改为 windows1251 而不会丢失西里尔文信息。因为当我明确更改编码时,所有西里尔符号都变得不可读?
java - 使用 Java 读取 Paradox 数据库时出现编码问题
我有读取 Paradox 文件 (*.db) 的 Java 应用程序(使用 JDK 1.7)。它适用于拉丁字符。我试图让这个应用程序正确显示西里尔字符,但不断得到不可编辑的结果。
连接数据库的原始代码:
我尝试在获取连接时传递其他属性:
然而那并没有做任何事情。我尝试将字符集指定为“UTF-8”,但这也不起作用。
读取 ResultSet 的原始代码如下所示:
但标题不可读。我也尝试使用 rs.getBytes() 然后将结果传递给 new String 并在构造函数中指定编码,但这也不起作用。
有没有人知道缺少什么。
mysql - html 页面显示西里尔符号 OK,如果包含 charset=windows-1251,但不包含 utf-8
嗯... Html 页面和 mysql 表包含西里尔文字。为了显示西里尔文字 Барысаў2000 我使用
在网页上。为了将该单词存储在 MySQL 表中,使用了 utf8_unicode_ci排序规则(我已经阅读了一些主题,据我了解,建议使用 utf8_unicode_ci 存储西里尔符号)。但是,我使用 phpMyAdmin 实际看到的是,文本 Барысаў2000 在数据库中存储为 Áàðûñà¢2000,这就是我希望解决的问题。(POST方法+转义危险符号用于将用户的文本保存到数据库中)。但是,当您选择该数据并将其显示在 html 页面上时,它看起来很好:Барысаў2000。
phpMyAdmin 如何为我显示它的问题直到今天才困扰我。今天我试图解决它。
我猜我必须到处使用 utf-8,所以我从
至
现在我的页面显示问题而不是西里尔符号,并且在我的数据库中显示西里尔文本的问题没有解决。谁能告诉我是什么问题?PS 我可以毫无问题地阅读塞尔维亚语和白俄罗斯语(西里尔语)网站,并且可以在我的本地主机上输入西里尔语文本。
谢谢你。
android - Android HttpPost - 在 cp1251 中发送请求
我使用以下代码发送请求:
它以 UTF-8 发送请求,但我需要 cp1251(站点仅适用于此 CP)。如何将其编码到cp1251中?
python - Google App Engine 中的 Python unicode 行为
我完全对gae感到困惑。我有一个脚本,它执行一个发布请求(使用来自 Google App Engine api 的 urlfetch)作为响应,我们得到一个 cp1251 编码的 html 页面。
然后我使用 .decode('cp1251') 对其进行解码并使用 lxml 进行解析。
我的代码在我的本地机器上运行良好:
但是当我将它部署到 gae 时,我得到:
那里的非 unicode 字符如何?为什么本地一切正常?我已经尝试了在我的代码中放置的所有解码\编码变体 - 没有任何帮助。我现在被困了几天。
UPD:另外,如果我在 GAE 上添加到我的脚本:
它以“unicode”的形式返回。所以,我相信 html 被正确解码。会不会是 GAE 上的 lxml ?
pdf - Word 中的 CP1251 打印文件出现问题
我有一堆使用 Adobe Distiller 6 从 Word 打印的 PDF (1.4) 文件。嵌入了字体(Tahoma 和 Times New Roman,我在我的 Linux 机器上拥有)并且编码显示为“ANSI”和“Identity-H”。现在通过 ANSI,我假设区域代码页是从 Windows 机器使用的,即 CP-1251(西里尔文),关于“Identity-H”,我假设这是只有 Adobe 知道的东西。
我只想提取文本并索引这些文件。问题是我从pdftotext
. 我试图从 Acrobat 导出示例 PDF 文件,但我再次得到垃圾,但另外处理iconv
得到了正确的数据:
iconv -f windows-1251 -t utf-8 Adobe-exported.txt
但同样的技巧不适用于pdftotext
:
pdftotext -raw -nopgbrk sample.pdf - | iconv -f windows-1251 -t utf-8
默认情况下采用 UTF-8 编码,然后输出一些垃圾:Сiconv: illegal input sequence at position 77
pdftotext -raw -nopgbrk -enc Latin1 sample.pdf - | iconv -f windows-1251 -t utf-8
再次扔垃圾。
我没有CP1251 /usr/share/poppler/unicodeMap
,用谷歌找不到,所以试着做一个。我从 wikipedia CP1251 数据创建了文件,并在文件末尾附加了其他地图的内容:
所以这pdftotext
不会抱怨,而是源于:
pdftotext -enc CP1251 sample.pdf -
又是同样的垃圾。hexdump
乍一看并没有透露任何东西,我想在这里问一下我的问题,然后拼命地试图从中得出一些结论hexdumps
php - xml 到 php 并解析编码错误
我正在从 url 解析 xml 文件(在下面的代码中),使用file_get_contents()函数和 simpleXML,将数据插入表中,我做得很好,但我有编码问题(俄语单词)我明白了 -> Р§ ерногория ; 文件和数据库编码设置为 utf-8;
c#-4.0 - ITextSharp:用西里尔文/国际单词解析 html
我尝试解析 html 文件并生成 pdf。我使用代码
如何定义基本字体,如果我想使用西里尔文/国际字词?