问题标签 [cp1251]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3505 浏览

javascript - 如何使用javascript将西里尔字符转换为ASCII码

我真的需要一种将 CP1251 表中的所有字符转换为 0 到 255 的 ASCII 码的方法。到目前为止,我发现的唯一方法是 charCodeAt() 函数,它仅适用于高达 128 的代码。对于较高的代码,它发出一个对我不利的 Unicode 数字。

0 投票
6 回答
62023 浏览

python - 如何将字符串从 CP-1251 转换为 UTF-8?

我正在使用诱变剂将 ID3 标签数据从CP-1251 / CP-1252转换为 UTF-8。在 Linux 中没有问题。但在 Windows 上,调用SetValue()wx.TextCtrl 会产生错误:

UnicodeDecodeError:“ascii”编解码器无法解码位置 0 的字节 0xc3:序数不在范围内(128)

我从诱变剂中提取的原始字符串(假设为 CP-1251 编码)是:

我尝试将其转换为 UTF-8:

...甚至将默认编码从 ASCII 更改为 UTF-8:

...但我得到了同样的错误。

0 投票
2 回答
11069 浏览

encoding - 在 intellij idea 中更改文件编码而不丢失信息

是否可以将文件的编码从 UTF-8 更改为 windows1251 而不会丢失西里尔文信息。因为当我明确更改编码时,所有西里尔符号都变得不可读?

0 投票
1 回答
2136 浏览

java - 使用 Java 读取 Paradox 数据库时出现编码问题

我有读取 Paradox 文件 (*.db) 的 Java 应用程序(使用 JDK 1.7)。它适用于拉丁字符。我试图让这个应用程序正确显示西里尔字符,但不断得到不可编辑的结果。

连接数据库的原始代码:

我尝试在获取连接时传递其他属性:

然而那并没有做任何事情。我尝试将字符集指定为“UTF-8”,但这也不起作用。

读取 ResultSet 的原始代码如下所示:

但标题不可读。我也尝试使用 rs.getBytes() 然后将结果传递给 new String 并在构造函数中指定编码,但这也不起作用。

有没有人知道缺少什么。

0 投票
1 回答
3345 浏览

mysql - html 页面显示西里尔符号 OK,如果包含 charset=windows-1251,但不包含 utf-8

嗯... Html 页面和 mysql 表包含西里尔文字。为了显示西里尔文字 Барысаў2000 我使用

在网页上。为了将该单词存储在 MySQL 表中,使用了 utf8_unicode_ci排序规则(我已经阅读了一些主题,据我了解,建议使用 utf8_unicode_ci 存储西里尔符号)。但是,我使用 phpMyAdmin 实际看到的是,文本 Барысаў2000 在数据库中存储为 Áàðûñà¢2000,这就是我希望解决的问题。(POST方法+转义危险符号用于将用户的文本保存到数据库中)。但是,当您选择该数据并将其显示在 html 页面上时,它看起来很好:Барысаў2000。

phpMyAdmin 如何为我显示它的问题直到今天才困扰我。今天我试图解决它。

我猜我必须到处使用 utf-8,所以我从

现在我的页面显示问题而不是西里尔符号,并且在我的数据库中显示西里尔文本的问题没有解决。谁能告诉我是什么问题?PS 我可以毫无问题地阅读塞尔维亚语和白俄罗斯语(西里尔语)网站,并且可以在我的本地主机上输入西里尔语文本。

谢谢你。

0 投票
0 回答
337 浏览

android - Android HttpPost - 在 cp1251 中发送请求

我使用以下代码发送请求:

它以 UTF-8 发送请求,但我需要 cp1251(站点仅适用于此 CP)。如何将其编码到cp1251中?

0 投票
2 回答
1321 浏览

python - Google App Engine 中的 Python unicode 行为

我完全对gae感到困惑。我有一个脚本,它执行一个发布请求(使用来自 Google App Engine api 的 urlfetch)作为响应,我们得到一个 cp1251 编码的 html 页面。

然后我使用 .decode('cp1251') 对其进行解码并使用 lxml 进行解析。

我的代码在我的本地机器上运行良好:

但是当我将它部署到 gae 时,我得到:

那里的非 unicode 字符如何?为什么本地一切正常?我已经尝试了在我的代码中放置的所有解码\编码变体 - 没有任何帮助。我现在被困了几天。

UPD:另外,如果我在 GAE 上添加到我的脚本:

它以“unicode”的形式返回。所以,我相信 html 被正确解码。会不会是 GAE 上的 lxml ?

0 投票
0 回答
583 浏览

pdf - Word 中的 CP1251 打印文件出现问题

我有一堆使用 Adob​​e Distiller 6 从 Word 打印的 PDF (1.4) 文件。嵌入了字体(Tahoma 和 Times New Roman,我在我的 Linux 机器上拥有)并且编码显示为“ANSI”和“Identity-H”。现在通过 ANSI,我假设区域代码页是从 Windows 机器使用的,即 CP-1251(西里尔文),关于“Identity-H”,我假设这是只有 Adob​​e 知道的东西。

我只想提取文本并索引这些文件。问题是我从pdftotext. 我试图从 Acrobat 导出示例 PDF 文件,但我再次得到垃圾,但另外处理iconv得到了正确的数据:

iconv -f windows-1251 -t utf-8 Adobe-exported.txt

但同样的技巧不适用于pdftotext

pdftotext -raw -nopgbrk sample.pdf - | iconv -f windows-1251 -t utf-8

默认情况下采用 UTF-8 编码,然后输出一些垃圾:Сiconv: illegal input sequence at position 77

pdftotext -raw -nopgbrk -enc Latin1 sample.pdf - | iconv -f windows-1251 -t utf-8

再次扔垃圾。

我没有CP1251 /usr/share/poppler/unicodeMap,用谷歌找不到,所以试着做一个。我从 wikipedia CP1251 数据创建了文件,并在文件末尾附加了其他地图的内容:

所以这pdftotext不会抱怨,而是源于:

pdftotext -enc CP1251 sample.pdf -

又是同样的垃圾。hexdump乍一看并没有透露任何东西,我想在这里问一下我的问题,然后拼命地试图从中得出一些结论hexdumps

0 投票
1 回答
462 浏览

php - xml 到 php 并解析编码错误

我正在从 url 解析 xml 文件(在下面的代码中),使用file_get_contents()函数和 simpleXML,将数据插入表中,我做得很好,但我有编码问题(俄语单词)我明白了 -> Р§ ерногория ; 文件和数据库编码设置为 utf-8;

0 投票
2 回答
2948 浏览

c#-4.0 - ITextSharp:用西里尔文/国际单词解析 html

我尝试解析 html 文件并生成 pdf。我使用代码

如何定义基本字体,如果我想使用西里尔文/国际字词?