问题标签 [gbk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
107 浏览

python-3.x - 为什么 file.tell() 会影响编码?

在读取我的 GBK 编码文件时调用tell()会导致下一次调用readline()引发UnicodeDecodeError. 但是,如果我不打电话tell(),它不会引发此错误。

C:\tmp>hexdump badtell.txt

C:\tmp>类型 test.py

C:\tmp>python test.py

当我删除该f.tell()语句时,它成功解码。为什么?我在Win7/Win10上试过Python3.4/3.5 x64,都一样。

任何一个,任何想法?我应该报告错误吗?

我有一个大文本文件,我真的很想得到这个大文本的文件位置范围,有解决方法吗?

0 投票
2 回答
19464 浏览

java - 如何配置 Spring Boot 应用程序以同时支持 UTF-8 和 GBK 编码?

我在我的项目中使用 spring boot,并且遇到了一些编码问题。

在项目中,有一个控制器(如下),它接受带有内容类型标头的请求,“application/x-www-form-urlencoded;charset=GBK”。

当第三方调用这个api时,他们通过GBK对请求正文进行编码。一旦正文包含中文字符集,我得到的参数是错误的,不是人类可读的,类似于“结果������Ʒ”。

因为客户端使用GBK编码发送请求体,但是spring boot使用UTF-8解码请求体,这是spring boot的默认字符集编码。

该项目有不同的第三方可用,其中大多数都使用 UTF-8,所以我无法通过配置 yml 文件将项目编码更改为 GBK:

所以我的第一个想法是扭转我得到的错误字符串。但是我在下面的测试中失败了。

那么如何使用单个 Spring Boot 应用程序同时支持 GBK 和 UTF-8 编码请求。

0 投票
1 回答
59 浏览

character-encoding - Why ISO 2022 defined 94- and 96-?

I have some doubts about the standard ISO 2022:

  • What's the difference between using 94-(0x21 - 0xFE) and using 96-(0x20 - 0xFF)?
  • Why, for example in EUC-CN, code in CS1 only use limited area (94- 96-)? Why doesn't it occupy the all? For compatibility or other reasons?

Looking forward to your replies and thx~

0 投票
1 回答
1333 浏览

http - 如何使用 cURL 或 python 请求将参数编码为 gbk 而不是 utf-8?

我有一个奇怪的 API,它只接受gbk参数,我在 中捕获数据Windows IE browser,使用以下命令显示数据:

如您所见,我的数据编码为GBK. 然后我像这样发送数据netcat

但如果我用 发送数据UTF-8,我会得到错误的响应:

我试图这样发送cURL

这不起作用,它得到如下响应:

然后,与data-urlencode

这不起作用,它会得到这样的响应:

我也试过用python,

这不起作用,响应如下:

0 投票
0 回答
481 浏览

python-2.7 - PySpark读取GBK HDFS 包含汉字

我有很多用 GBK 编码的大 HDFS 文件,但是这些文件包含特殊字符,包括中文等。这些中文字符串将显示或保存到文件中。我该如何处理这个问题?

PySpark 仅支持 UTF-8 阅读器。

  • 星火版本:2.0.0。
  • Hadoop版本:2.7
  • 蟒蛇 2.7

添加如下:

结果将被保存到文件中,然后结果文件将在另一个系统中使用,例如 SDK。我打印了一个字,就像u'\ufffd\u0439\ufffd',显然是无效的。

0 投票
1 回答
60 浏览

python-2.7 - 从html下载中文表格后的奇怪字符

我正在使用 MAC OS X 10.12 系统。我从http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.html下载了一个表格 。表格是用GB2312编码的,但是我用GBK来保存表格。代码的主要部分如下所示:

我对许多其他类似的表格重复了这种代码模式,但是,对于某些链接(例如我在此处发布的那个),下载的中文表格带有奇怪的字符。这是示例。

怎么把这个表转成真正的中文,或者怎么下载中文表?

问题是,如果我选择使用GB2312,也许这张表可以正确显示中文,但对于其他表,它仍然会显示这些烦人的奇怪字符。

0 投票
1 回答
1517 浏览

boost - 当json文件有一些gbk中文字符时,boost read_json会抛出异常

有一个这样的json文件,没有bom,使用gbk代码集。boost::property_tree 在大多数情况下可以成功解析它。

但是,如果文件有汉字“历”(c0fa)或“绕”(c040),property_tree会抛出异常“invalid code sequence”

0 投票
0 回答
192 浏览

java - Java编程中如何检索带有汉字的记录?

在 Java 中检索带有中文字符的记录时遇到问题。这是我的代码:

程序执行SQL语句时,弹出错误:“java.sql.SQLException: Cannot map Oracle character to Unicode”。如果我检索没有汉字的记录,程序运行正常。我的数据库是Oracle,汉字是GBK字符集中的。我怎么解决这个问题?

0 投票
1 回答
1411 浏览

python - 在 python3 中使用 sys.stdin 读取具有不同编码格式的文件

我有许多用 UTF-8 或 GBK 编码的文件。我的系统编码是 UTF-8 ( LANG=zh_CN.UTF-8),因此我可以轻松读取使用 UTF-8 编码的文件。但我也必须使用 GBK 读取文件编码。我正在关注Python 3:如何在此处指定标准输入编码:

我的问题是如何从 sys.stdin. 或者你能给我一些更好的解决方案吗?

为了稍微扩展这个问题,我想处理这样的文件:

*.in返回许多使用 UTF-8 或 GBK 编码的文件。

如果我在handler.py

它会在尝试处理 GBK 文件时立即抛出错误:

另一方面,如果我使用这样的代码:

它会在任何 UTF-8 文件上引发错误:

我想找到一种安全的方法来处理我的脚本中的两种类型的文件(UTF-8 和 GBK)。

0 投票
1 回答
1020 浏览

java - 插入/更新到 sql_ascii 编码 postgreSQL

这是一个带有服务器编码 SQL_ASCII 的 postgreSQL。当我获取数据时,我必须convert_to(column1, 'SQL_ASCII')在select中使用function,然后new String(value1, 'GBK')在java中使用以获得正确的值。

但是,当我通过插入/更新发送数据时,数据库中的值总是出错。任何人都可以告诉我如何通过Java发送包括中文或其他字符的SQL?

Apache DBCP 配置:

java中的SQL查询:

但是插入/更新时我应该怎么做?