问题标签 [gb2312]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 从html下载中文表格后的奇怪字符
我正在使用 MAC OS X 10.12 系统。我从http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.html下载了一个表格 。表格是用GB2312编码的,但是我用GBK来保存表格。代码的主要部分如下所示:
我对许多其他类似的表格重复了这种代码模式,但是,对于某些链接(例如我在此处发布的那个),下载的中文表格带有奇怪的字符。这是示例。
怎么把这个表转成真正的中文,或者怎么下载中文表?
问题是,如果我选择使用GB2312,也许这张表可以正确显示中文,但对于其他表,它仍然会显示这些烦人的奇怪字符。
php - 如何在 PHP 中将 GB2312 中的字符正确转换为 UTF-8?
我有中文单词的变量,它们的字符集是 GB2312。我想将它们转换为 UTF-8,因为我想用 utf-8 编码将它们保存到 mysql 表中。那是PHP怎么做的?我正在使用 PHP 7。
这是我尝试过的:
- 我试过使用
$myvar = iconv('gb2312', 'utf-8', $myvar);
但是如果我的一些变量包含一些字符(可能是无效的 UTF-8 字符?) - 我试过使用
$myvar = mb_convert_encoding($myvar, 'UTF-8', 'GB2312');
它比iconv
但当$myvar
包含我上面提到的一些字符时,它们会变成问号 (?
)
请帮助我,谢谢
更新 这里是我的中文字符串的一个例子:
- GB2312(预期结果):第3章︰林鸿
- 使用
mb_convert_encoding
成为:第3章?林? - 使用
iconv
变空
c++ - 在macos开发qt应用程序上使用rapidjson时如何获得正确的中文?
我在 macOS 和 windows 上开发了一个跨平台的 qt 应用程序,我有一个名为“proj.json”的文件,它是由我在 windows 上的应用程序中的 rapidjson 生成的,在 windows 上它的编码格式是 GB2312,现在我在我的mac 上的应用程序在 proj.json 文件中有一个字符串 proj.json,在我的 qt 应用程序中,在 proj.json 文件中有一个字符串。 \Templates22D 魔法师\2D 魔法师\.fuproj'
它注销'str1----.\Templates\2D\314\371ֽ\2D\314\371ֽ.fuproj',我没有字符串'.\Templates\2D\314\371ֽ\2D的编码格式\314\371ֽ.fuproj',而我在 mac 运行时编码格式上的 qt 应用程序是 'UTF-8',看来 GB2312 转换为 UTF-8 是因为这个。如何让 GB312 字符串 'Templates\2D.\'2D.\'2D.D.fuproj' 在 macos 上的 qt 应用程序中正确显示,非常感谢!
utf-8 - 为什么iconv不能转换字符
我得到了这个错误。有人知道出了什么问题吗?谢谢。
java - 声明中带有 ISO-8859-1 的 GB2312 的 Java XML 编码
我正在努力将创建 XML 的代码从 Java 1.4 迁移到 1.8。从旧的 java 代码,它将 xml 文件编码为 GB2312,XML 声明是这个 <?xml version="1.0" encoding="ISO-8859-1"?> 具有正确的中文字符。但是当我迁移到 java 1.8 时,整个 XML 变成了 ISO-8859-1,而汉字变成了这样的东西 威猛
这是带有 ISO-8859-1 声明和 GB2312 编码的旧代码 XML 文件的示例输出
这是新代码的示例输出
带有 ISO-8859 声明和 GB2312 编码问题的 XML 文件
谢谢你的帮助
hex - 这是什么文本:=B0=A1=C1=CB ...以及如何将其转换为普通文本?
我在这种形式中找到了一些文本:
主要包含由等号后跟两个十六进制数字组成的序列。
我听说它可以转换成这样的中文句子:
什么是=B0=A1=C1
以及如何解码/转换它?
powershell - 将 GB2312 编码的 MIME 转换为可读字符串
当我问这个问题时,我为听起来很无知而提前道歉,但我不太擅长概念化编码和解码数据的概念。
例如,我可以访问具有以下值的 MIME 编码文本:
我知道(或者很确定我知道)它是使用 GB2312 编码的。使用在线解码器翻译告诉我它是英文中的“sheet”一词。有没有办法将它解码成它的源语言字符,我什至可以将它放入第 3 方翻译器中,以便从 PowerShell 用英语阅读它?我觉得问这个问题像个白痴,因为我什至不确定我是否以一种聪明的方式问这个问题,因为我对所涉及的所有核心部分缺乏了解。
我试过浏览 Encoding 类,但它没有任何东西可以支持这种类型。是否有任何其他模块或我不知道的可用东西可以促进这一点?
感谢您提供的任何帮助,并感谢您接受有关此主题的教育。
utf-8 - 在 colab 中解码 gb-2312 文件
我正在尝试在 Colab 中打开一个使用 gb-2312 编码的文件。这是我在 IDE 中成功运行以读取和解码的代码:
当我在 colab 中运行此代码时,我收到以下错误:
但是如果不先使用 read() 或 list() 就无法解码,否则会出现以下错误:
这似乎是第 22 条规则。这是 Colab 的一个错误,还是有更好的方法来解决这个问题?
unicode - 为简体中文标识符构建令牌
我正在尝试为简体中文标识符构建一个令牌。
简体中文标识符在规范中定义如下:
这是UNICODE-BESTFIT和Windows Codepage 936。
例如,我所做的是%xA3C1
在页面中查找,然后获取其对应的代码,即0xff21
. %xA3C1
因此,我找到了, %xA3DA
, %xA3E1
, %xA3FA
, %xA1A2
, %xA1AA
, %xA1AC
, %xA1AD
, %xA1B2
,的相应代码%xA1E6
;%xA1E8
, %xA1EF
, %xA2B1
, %xA2FC
, %xA4A1
, %xFE4F
, 和构建CP936-initial-character
如下:
但是,问题在于,例如,某些范围看起来很奇怪,0x00a4 .. 0x2605
并且0x2488 .. 0x216b
顺序不正确;而且0x3041 .. 0xfa29
看起来太大了。
有谁知道构建这个令牌的正确方法是什么?
python - 使用 linecache.getline 读取 GB2312 编码文件
我需要读取具有给定行号的 GB2312 编码文件中的指定行。很多人提到linecache.getline(file_path,line_no)
的是正确答案。但是
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 72: invalid continuation byte
当我尝试读取 GB2312 文件时它出现了,同时使用 utf-8 文件。
但是,在 Python 文档中,linecache.getline()
我没有找到任何指定编码方法的参数。
所以我想知道是否linecache.getline()
能够读取非 utf-8 文件?如果是,如何?
这是一个最小的可重现示例。
将以下带有中文字符的文本存储为test.txt。然后使用 vs-code 或 notpad++ 将其转换为 GB2312 编码。