问题标签 [windows-1252]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
macos - 在 C 中将 Windows-1252 编码映射到 UTF8
如何以编程方式将编码 Windows-1252(又名 CP1252)的 C 字符串转换为 UTF8?
encoding - Windows-1252 代码页是否可以有一个多字节字符?
我知道一些语言环境(例如远东语言环境)具有多字节字符集,其中需要多个字节来表示一个字符。
我想测试我的(ANSI)软件处理多字节字符的能力。
除了我住在北美,我的 Windows 代码页设置为Windows-1252
.
是否可以在我的本地 Windows-1252 语言环境中构造多字节字符?
javascript - 将特殊字符从 Javascript 转换为 Java
我的表单中有一个文本区域,它接受来自用户的所有可能的字符。我将在 textarea 中输入的字符数限制为 10 。当用户输入带有特殊字符的文本说“SampleTxt”时,textarea 中的字符数为 10。但是当我在表单中获取文本区域的值时,文本变为“SampleTxt”
文本数变为21。如何解决这个问题?
jsp
encoding - 如何将编码从 UTF-8 转换为 windows-1252?
如何正确地将文本文件从 UTF-8 转换为 Windows-1252?
我曾尝试使用 iconv (windows xp) 转换文件,但这个工具将文本文件转换为 ANSI。我的 Windows 中的默认代码页是 Windows-1251,因此我无法正确显示某些字符。
perl - 从 Perl 中以 utf8 模式打开的 ASCII 文本文件中过滤 microsoft 1252 个字符
我有一个大小合理的文本文档平面文件数据库,大部分以 8859 格式保存,这些文本文档是通过 Web 表单(使用 Perl 脚本)收集的。直到最近,我还在用一组简单的正则表达式协商常见的 1252 个字符(弯引号、撇号等):
... ETC。
然而,由于我决定我应该使用 Unicode,并且已经将我的所有脚本转换为读取和输出 utf8(这对所有新材料都有效),这些(现有)1252 个字符的正则表达式不再有效,我的 Perl html output 从字面上输出 4 个字符:'\x92' 和 '\x93' 等(至少这就是它在 utf8 模式下在浏览器上的显示方式,下载(ftp 不是 http)并在文本编辑器(textpad)中打开它是不同的,一个未定义的字符仍然存在,并且在 Firefox 默认(无内容类型标题)8859 模式下打开输出文件会呈现正确的字符)。
脚本开头的新 utf8 pragma 是:
使用 CGI qw(-utf8); 使用 open IO => ':utf8';
我知道这是由于 utf8 模式使字符成为双字节而不是单字节,并适用于 0x80 到 0xff 范围内的那些字符,阅读了与此相关的维基书籍上的文章,但是我不知道如何过滤它们。理想情况下,我知道我应该以 utf8 模式重新保存所有文档(因为平面文件数据库现在包含 8859 和 utf8 的混合),但是如果我要这样做的话,我首先需要某种过滤器.
对于内部的 2 字节存储,我可能是错误的,因为它似乎暗示 Perl 根据不同的情况处理非常不同的东西。
如果有人可以为我提供正则表达式解决方案,我将不胜感激。或者其他一些方法。数周来,我一直在为此烦恼,尝试了各种尝试,但黑客攻击失败了。通常需要替换大约 6 个 1252 字符,并且通过过滤器方法,我可以在 utf8 中重新保存整个翻转批次,而忘记曾经有一个 1252 ......
php - php 的 mb_detect_encoding()
首先,我想说我已经阅读了关于 PHP 的 mb_detect_encoding 的另一篇文章, 位于 PHP 中 mb_detect_order() 的奇怪行为。这肯定会再次确认我会通过跟踪和错误学到什么。但是仍然有一些事情让我感到困惑。
我正在构建一个主要是英文网站的 html 抓取工具,用于收集数据并将其存储到 UTF-8 XML 中。我遇到了一个问题,页面自身声明了 ISO-8859-1 字符集,但它包含 Windows-1252 独有的字符。特别是右单引号 (') 0x92。据我了解,windows-1252 是 iso-8859-1 的超集,这促使我思考为什么要费心使用 utf8_encode() 呢?为什么不直接使用 iconv('Windows-1252', 'UTF-8', $str) 代替 utf8_encode() ,因为 iso-8859-1 中表示的任何内容以及 windows-1252 独有的字符都会被转换(即€‚ƒ''“”)
还
为什么会这样?如果字符串中的第一个字符不是 windows-1252,即使它的其余部分是,它也会失败?这种行为不是让它变得毫无用处吗?至于区分 iso-8859-1 和 windows-1252
让我感到困惑的另一件事是,假设我想检测 ASCII、ISO-8859-1、windows-1252、UTF-8 之间的字符集。是否有可能以使我获得最低排名的方式检测字符串?(IE。
我的 $detect_order = array('ASCII', 'ISO-8859-1', 'Windows-1252','UTF-8'); 我知道这是不正确的,因为它给了我以下结果
为什么我的 ('ASCII', 'ISO-8859-1', 'Windows-1252','UTF-8') 的检测顺序对于我想要得到的东西是错误的?
我得到的最接近的期望返回值是
以下两个 mb_detect_order 数组都给了我上述值
这让我很困惑!
唷,有人可以对此有所了解吗?非常感谢!
java - java中从1252编码到Unicode .NET等价物
我有将 .NET Web 服务移植到 java 的请求。我需要为这段用 .NET 编写的代码找到等效的 java 代码:
提前致谢!
unicode - 从错误地保存为 UTF-8 的数据中重建 Windows-1252 字符
我正在处理使用 Java HtmlUnit 采样的数据。该网页使用 Windows-1252 编码,但检索到的响应好像页面被编码为 UTF-8(即,当调用 HtmlUnit WebResponse 对象上的 getContentAsString 时,指定了 UTF-8 编码而不是推迟到服务器中指定的编码回复)。有没有办法扭转这个过程,从错误标记的 UTF-8 字符数据中重建原始 Windows-1252 数据?
关于这个主题的大多数其他问题都与识别文件类型或从一种流类型转换为另一种流类型以首先正确编码字符有关。这里情况不同。我不相信 iconv 之类的实用程序会起作用,因为他们希望这些流从一开始就正确地保存在其源编码中。
ajax - 通过 AJAX 加载的 ASP 经典中的错误字符集
我在 ASP 经典页面上动态加载部分内容时遇到问题。我使用 AJAX 动态加载页面,具体取决于下拉选择的选项。Generated 包含一些用于在下拉列表中包含下拉列表和选项文本的标签。标签是以 UTF-8 编码的常量,包含一些西欧重音字符,选项文本从数据库加载,也包含重音字符,但以 ANSI 编码。标签设置为 utf-8 但它只影响页面的第一次加载,因为它们全部放在页面上。选择其他选项后,AJAX 会填充元素,并且可以很好地加载标签,但选项文本会乱七八糟,所以我猜 AJAX 不会在第二次等时间加载文本编码。解决方法是更改常量中的标签文本并设置 <% Response.Charset = "windows-1252" %> 在第一次加载的页面上。现在,我想为此找到更好的方法,最好在 AJAX 响应中将其全部设置为 UTF-8 或 windows-1225,或者将页面上的每个元素设置为使用 ajax 进行不同的编码。我什至尝试了 ASP 经典中的替换功能,它可以工作,但是对于每个新的重音字母,它再次需要其他替换。任何帮助表示赞赏!:)