问题标签 [non-unicode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - Removing Non Unicode characters from a file
I know this is repeated question but I have really tried hard all of the solutions so far. Can anyone please help how to get rid of chacracters like \xc3\xa2\xc2\x84\xc2\xa2 from a file?
The file content which I am trying to clean currently is: b'Roasted Onion Dip',"b""['2 pounds large yellow onions, thinly sliced', '3 large shallots, thinly sliced', '4 sprigs thyme', '1/4 cup olive oil', 'Kosher salt and freshly ground black pepper', '1 cup white wine', '2 tablespoons champagne vinegar', '2 cups sour cream', '1/2 cup chopped fresh chives', '1/4 cup plain Greek yogurt', 'Everything seasoning and thyme to garnish', 'Cape Cod Waves\xc3\xa2\xc2\x84\xc2\xa2 Potato Chips for serving']"""
I have tried using re.sub('[^\x00-\x7F]+',' ',whatevertext) but can't seem to get anywhere. I suspect that \ here is not being treated as a special character.
sql-server - SSIS 中的 ISNULL 函数
我有一个列PhoneNumber varchar(50)
,我想PhoneNumberType varchar(50)
根据以下内容为派生列构建一个表达式,
我试过
但是我在将列映射为时遇到错误
列 PhoneNumberType 无法在 unicode 和非 unicode 字符串数据类型之间转换
更新:我可以只去派生列组件的高级编辑器并在列属性中选择string [DT_STR]
而不是自动生成的数据类型吗?unicode string [DT_WSTR]
这是一个好习惯吗?
javascript - 如何将非unicode转换为unicode?
在我的数据库中,有一个类型为“varchar”的字段,它无法保存我的字母表,因此该值为例如 - “|^є^Ѓ¦`ѓЇ ^єЋ^”,我想将其转换为检索数据时的 unicode。我怎样才能做到这一点?在 JavaScript 中可能吗?还是vb.net?
重要提示:我无权更改数据库中的列类型。
javascript - 在Javascript中将非unicode二进制字符串转换为字节数组
我使用 ajax 从 Web 服务器读取二进制文件。HTTP 响应是 contentType: 'application/octet-stream' 并包含一个二进制字符串,它只是一个字节字符串(不是 unicode),例如(十六进制):
0x00 0x08 0x17 0xA1 0x01
注意:在 C 中,这将在内存中表示为 5 个字节:
...但在 Javascript 中,这是一个字符串,其 ASCII 表示类似于“�”(我实际上无法正确粘贴它,因为并非所有字符都有可打印的表示)。
我现在需要将其转换为字符或整数数组,以便我可以访问字符串中每个字符的数值。但是,使用 charCodeAt() 函数遍历示例字符串会返回:
因为 charCodeAt() 解码 unicode 字符,并且 0xA1 不被识别为有效的 unicode 字符,所以使用替换字符(65533) 代替。
我想得到以下信息:
如何做到这一点?
这是代码片段:
ssis - SSIS 数据转换(从 unicode 到 ANSI)返回状态值 4
我有以下问题:
我有一个 SSIS 包,它以在 Oracle DB 上执行的查询开始,我想导出一个带有 ANSI 1253 代码页的固定宽度平面文件。我收到一个错误:
列 [column_name] 的数据转换返回状态值 4 和状态文本“文本被截断或目标代码页中的一个或多个字符不匹配”
问题与消息的第二部分有关,因为宽度还可以。我尝试使用 Toolbox 中的数据转换,但它不起作用(可能我没有以正确的方式使用它)。我只有select
数据库的权限,所以我不能添加任何 sql 过程来删除查询中的特殊字符。此外,将数据加载到临时表的想法也不是我的最佳选择。有谁知道如何在不出现此错误的情况下转换我的数据?
非常感谢提前
unicode - -Dfile.encoding= 的非 unicode 字符集的示例是什么?
我有一个 JVM。其中字符集为 "-Dfile.encoding=UTF-8" 。这就是 UTF-8 的设置方式。我想将其设置为非 Unicode 字符集。
是否有非 unicode 字符集的示例/值以便我可以设置为-Dfile.encoding=
?
python - 编码日文字符时出现charmap错误
我正在制作一个程序,使用该replace()
函数将特定的日文字符从外部文本文件翻译成英文拼写,但我遇到了一个奇怪的错误。
我确保对文本文件中的所有字符进行编码,然后将其放入变量中,然后在该变量上以字节级别启动替换过程,然后再次将其解码为字符串,然后写入新的文本文件.
如果文本文件包含脚本中可替换的所有日文字符,则一切正常,但如果文本文件包含脚本中不可替换的日文字符,则会出现此错误:
UnicodeEncodeError: 'charmap' codec can't encode character '\u306e' in position 6: character maps to <undefined>
这样一来,python 在编码后似乎无法再次解码日语字符的字节。
最糟糕的是,甚至还有一些其他非 Unicode 字符,即使我在 python 脚本上将其替换为可替换,我仍然会得到相同的错误,这意味着 python 甚至无法对其进行编码,但我现在主要关注的是为什么 python拒绝解码日语字符的字节,尽管它自己的 python 能够对其进行编码。
python - 如何在 python 3 中使用正则表达式忽略 unicode 字符?
我正在尝试解析一个包含很多 unicode 字符的词汇表。我不想抓住这些角色,如果可能的话,我想像普通角色一样处理它们。我的数据:
我想要两组正则表达式:组(1):Includes all vocabulary without the last "capter-ID"
组(2):Only "capter-ID"
示例:组(1):en antropologi /ɑntrupulu¹giː/ antropologien, antropologier, antropologiene an anthropology
组(2):01A
我尝试了以下搜索算法,这些算法在我用于调试的https://regex101.com/上运行良好:"(.+)(01\S)\n" 与 "(\D+)(01\ S)\n"
这是我的代码和我得到的错误:
excel - Excel 等效于 Python“Not In”,以返回去除了不需要的字符的字符串
在工作表 1 上,B 列包含一些带有错误字符的单词。Sheet2 有很多我不想要的字符。在 python 中,我会使用列表理解和“不在”来返回删除任何坏字符的单词列表。什么是等效的 Excel 命令?
我曾尝试使用正则表达式和 VBA UDF 中的简单嵌套循环来执行此操作,但坏字符是非 Unicode(日语),并且在转换它们时令人窒息。我希望有一些 Substitute 等的组合。这可以返回去除任何坏字符的单词。或者,如果有人知道如何在 VBA 中转换日文字符,那也可以。
谢谢!