“non-unicode”的相关标签问题

0 投票

1 回答

163 浏览

python-2.7 - Removing Non Unicode characters from a file

I know this is repeated question but I have really tried hard all of the solutions so far. Can anyone please help how to get rid of chacracters like \xc3\xa2\xc2\x84\xc2\xa2 from a file?

The file content which I am trying to clean currently is: b'Roasted Onion Dip',"b""['2 pounds large yellow onions, thinly sliced', '3 large shallots, thinly sliced', '4 sprigs thyme', '1/4 cup olive oil', 'Kosher salt and freshly ground black pepper', '1 cup white wine', '2 tablespoons champagne vinegar', '2 cups sour cream', '1/2 cup chopped fresh chives', '1/4 cup plain Greek yogurt', 'Everything seasoning and thyme to garnish', 'Cape Cod Waves\xc3\xa2\xc2\x84\xc2\xa2 Potato Chips for serving']"""

I have tried using re.sub('[^\x00-\x7F]+',' ',whatevertext) but can't seem to get anywhere. I suspect that \ here is not being treated as a special character.

2018-03-24T16:55:01.523

0 投票

2 回答

6991 浏览

sql-server - SSIS 中的 ISNULL 函数

我有一个列PhoneNumber varchar(50)，我想PhoneNumberType varchar(50)根据以下内容为派生列构建一个表达式，

我试过

但是我在将列映射为时遇到错误

列 PhoneNumberType 无法在 unicode 和非 unicode 字符串数据类型之间转换

更新：我可以只去派生列组件的高级编辑器并在列属性中选择string [DT_STR]而不是自动生成的数据类型吗？unicode string [DT_WSTR]

这是一个好习惯吗？

sql-server unicode ssis isnull non-unicode

2018-06-01T07:50:13.233

0 投票

0 回答

149 浏览

javascript - 如何将非unicode转换为unicode？

在我的数据库中，有一个类型为“varchar”的字段，它无法保存我的字母表，因此该值为例如 - “|^є^Ѓ¦`ѓЇ ^єЋ^”，我想将其转换为检索数据时的 unicode。我怎样才能做到这一点？在 JavaScript 中可能吗？还是vb.net？

重要提示：我无权更改数据库中的列类型。

javascript vb.net unicode non-unicode

2018-07-15T15:19:57.177

0 投票

2 回答

338 浏览

javascript - 在Javascript中将非unicode二进制字符串转换为字节数组

我使用 ajax 从 Web 服务器读取二进制文件。HTTP 响应是 contentType: 'application/octet-stream' 并包含一个二进制字符串，它只是一个字节字符串（不是 unicode），例如（十六进制）：

0x00 0x08 0x17 0xA1 0x01

注意：在 C 中，这将在内存中表示为 5 个字节：

...但在 Javascript 中，这是一个字符串，其 ASCII 表示类似于“�”（我实际上无法正确粘贴它，因为并非所有字符都有可打印的表示）。

我现在需要将其转换为字符或整数数组，以便我可以访问字符串中每个字符的数值。但是，使用 charCodeAt() 函数遍历示例字符串会返回：

因为 charCodeAt() 解码 unicode 字符，并且 0xA1 不被识别为有效的 unicode 字符，所以使用替换字符(65533) 代替。

我想得到以下信息：

如何做到这一点？

这是代码片段：

javascript string binary non-unicode

2018-08-08T01:16:18.323

0 投票

1 回答

279 浏览

ssis - SSIS 数据转换（从 unicode 到 ANSI）返回状态值 4

我有以下问题：

我有一个 SSIS 包，它以在 Oracle DB 上执行的查询开始，我想导出一个带有 ANSI 1253 代码页的固定宽度平面文件。我收到一个错误：

列 [column_name] 的数据转换返回状态值 4 和状态文本“文本被截断或目标代码页中的一个或多个字符不匹配”

问题与消息的第二部分有关，因为宽度还可以。我尝试使用 Toolbox 中的数据转换，但它不起作用（可能我没有以正确的方式使用它）。我只有select数据库的权限，所以我不能添加任何 sql 过程来删除查询中的特殊字符。此外，将数据加载到临时表的想法也不是我的最佳选择。有谁知道如何在不出现此错误的情况下转换我的数据？

非常感谢提前

ssis data-conversion ansi non-unicode

2018-09-26T08:18:11.487

0 投票

1 回答

1275 浏览

unicode - 泰卢固语 Anu 脚本文本

关于复制/粘贴到浏览器时丢失字符的印度语言脚本

我需要了解字符类型并将它们转换为不同的可支持格式。我的问题是——我有使用 Anu Script Software 和 Apple 键盘输入的文本。使用 Anu 键入的文本也不能用作任何类型的浏览器或网络 WhatsApp 的输入。

任何人都可以解决这个问题

复制和粘贴的文本显示如下：-  </p>

真实文本如下图所示：-

此图显示了印度的一种语言，使用 Anu Script 软件键入

unicode character-encoding character special-characters non-unicode

2019-01-06T14:26:11.190

0 投票

1 回答

1212 浏览

unicode - -Dfile.encoding= 的非 unicode 字符集的示例是什么？

我有一个 JVM。其中字符集为 "-Dfile.encoding=UTF-8" 。这就是 UTF-8 的设置方式。我想将其设置为非 Unicode 字符集。

是否有非 unicode 字符集的示例/值以便我可以设置为-Dfile.encoding=？

unicode utf-8 character-encoding non-unicode

2019-05-07T17:51:13.783

0 投票

2 回答

698 浏览

python - 编码日文字符时出现charmap错误

我正在制作一个程序，使用该replace()函数将特定的日文字符从外部文本文件翻译成英文拼写，但我遇到了一个奇怪的错误。

我确保对文本文件中的所有字符进行编码，然后将其放入变量中，然后在该变量上以字节级别启动替换过程，然后再次将其解码为字符串，然后写入新的文本文件.

如果文本文件包含脚本中可替换的所有日文字符，则一切正常，但如果文本文件包含脚本中不可替换的日文字符，则会出现此错误：

UnicodeEncodeError: 'charmap' codec can't encode character '\u306e' in position 6: character maps to <undefined>

这样一来，python 在编码后似乎无法再次解码日语字符的字节。

最糟糕的是，甚至还有一些其他非 Unicode 字符，即使我在 python 脚本上将其替换为可替换，我仍然会得到相同的错误，这意味着 python 甚至无法对其进行编码，但我现在主要关注的是为什么 python拒绝解码日语字符的字节，尽管它自己的 python 能够对其进行编码。

python non-unicode

2019-07-24T20:21:46.977

0 投票

1 回答

189 浏览

python - 如何在 python 3 中使用正则表达式忽略 unicode 字符？

我正在尝试解析一个包含很多 unicode 字符的词汇表。我不想抓住这些角色，如果可能的话，我想像普通角色一样处理它们。我的数据：

我想要两组正则表达式：组（1）：Includes all vocabulary without the last "capter-ID" 组（2）：Only "capter-ID"

示例：组（1）：en antropologi /ɑntrupulu¹giː/ antropologien, antropologier, antropologiene an anthropology
组（2）：01A

我尝试了以下搜索算法，这些算法在我用于调试的https://regex101.com/上运行良好："(.+)(01\S)\n" 与 "(\D+)(01\ S)\n"

这是我的代码和我得到的错误：

python regex non-unicode

2019-09-08T10:19:39.083

0 投票

1 回答

25 浏览

excel - Excel 等效于 Python“Not In”，以返回去除了不需要的字符的字符串

在工作表 1 上，B 列包含一些带有错误字符的单词。Sheet2 有很多我不想要的字符。在 python 中，我会使用列表理解和“不在”来返回删除任何坏字符的单词列表。什么是等效的 Excel 命令？

我曾尝试使用正则表达式和 VBA UDF 中的简单嵌套循环来执行此操作，但坏字符是非 Unicode（日语），并且在转换它们时令人窒息。我希望有一些 Substitute 等的组合。这可以返回去除任何坏字符的单词。或者，如果有人知道如何在 VBA 中转换日文字符，那也可以。

谢谢！

excel notin non-unicode

2019-10-03T22:59:09.060

问题标签 [non-unicode]

Reference