我正在尝试区分英文和日文字符。我需要找到所有日文字符的 Unicode 范围。所有日文字符的 Unicode 范围是多少?
5 回答
正如 zawhtut 提到的,这个页面有几个 unicode 范围的参考。总结范围:
- 日式标点符号 ( 3000 - 303f)
- 平假名 (3040 - 309f)
- 片假名 (30a0 - 30ff)
- 全角罗马字符和半角片假名(ff00 - ffef)
- CJK 统一表意文字 - 常见和不常见的汉字 (4e00 - 9faf)
虽然这个问题已经有了答案,但这篇博文可能更完整。
请访问该站点并获取他们的指标,但为了后代,这里有一个复制粘贴。
平假名
Unicode 代码点正则表达式:
[\x3041-\x3096]
Unicode 块属性正则表达式:
\p{Hiragana}
ぁぃうぇえぉかがきぎくぐげここごごさささざざしじじすずずせせぜぜそそぞただだだちちちつつつつてびふぷべぺほぼぽまむめめやややゅゆゆょょょょよよよらりりるるれれろろゎゎゎわゐゑゑをん
片假名(全角)
Unicode 代码点正则表达式:
[\x30A0-\x30FF]
Unicode 块属性正则表达式:
\p{Katakana}
゠アゥウェエオカガキギクケゲゲココゴゴゴササザシシジススズズセセゼゼソゾタタタダダダッッッッヅビピプヘベペホボポマミムメャヤヤュュュユユユョョヨヨリリルルレレロロロヮヮワヰヰヱヱヱヲンン
汉子
Unicode 代码点正则表达式:
[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
Unicode 块属性正则表达式:
\p{Han}
日本汉字 文字 言语 言葉等。太多的字符无法列出。
这个正则表达式将匹配所有的汉字,包括那些用中文的。
汉字部首
Unicode 代码点正则表达式:
[\x2E80-\x2FD5]
⺀⺂⺅⺆⺇⺈⺊⺋⺌⺍⺎⺏⺑⺒⺒⺓⺓⺔⺔⺔⺕⺕⺖⺗⺗⺘⺙⺙⺛⺛⺜⺜⺝⺞⺟⺟⺟⺠⺠⺠⺣⺣⺣⺣⺥ ⺲⺴⺷⺸⺹⺺⺼⺽⺾⺿⻀⻁⻃⻄⻄⻅⻅⻆⻆⻆⻇⻇⻈⻉⻉⻊⻋⻋⻌⻌⻍⻍⻎⻎⻏⻐⻑⻑⻑⻒⻒⻒⻕⻕⻕⻕⻗ ⻤⻦⻩⻪⻫⻬⻮⻯⻰⻱⻲⻳⼁⼂⼂⼃⼃⼄⼄⼄⼅⼅⼆⼇⼇⼈⼉⼉⼊⼊⼋⼋⼌⼌⼍⼎⼏⼏⼏⼐⼐⼐⼓⼓⼓⼓⼕ ⼢⼤⼧⼨⼩⼪⼬⼭⼮⼯⼰⼱⼳⼴⼴⼵⼵⼶⼶⼶⼷⼷⼸⼹⼹⼺⼻⼻⼼⼼⼽⼽⼾⼾⼿⽀⽁⽁⽁⽂⽂⽂⽅⽅⽅⽅⽇ ⽔⽖⽙⽚⽛⽜⽞⽟⽠⽡⽢⽣⽥⽦⽦⽧⽧⽨⽨⽨⽩⽩⽪⽫⽫⽬⽭⽭⽮⽮⽯⽯⽰⽰⽱⽲⽳⽳⽳⽴⽴⽴⽷⽷⽷⽷⽹ ⾆⾈⾋⾌⾍⾎⾐⾑⾒⾓⾔⾕⾗⾘⾘⾙⾙⾚⾚⾚⾛⾛⾜⾝⾝⾞⾟⾟⾠⾠⾡⾡⾢⾢⾣⾤⾥⾥⾥⾦⾦⾦⾩⾩⾩⾩⾫ ⾹ ⾺ ⾻ ⿸ ⾽ ⾾ ⾿ ⿀ ⿁ ⿂ ⿃ ⿄ ⿅ ⿆ ⿇ ⿈ ⿉ ⿊ ⿋ ⿍ ⿎ ⿏ ⿐ ⿑ ⿒ ⿓ ⿔ ⿕</p>
片假名和标点符号(半角)
Unicode 代码点正则表达式:
[\xFF5F-\xFF9F]
⦅。,・ ヲ ァ ゥ ェ ォ ャ ュ ョ ー ア ア イ イ ウ ウ ウ エ エ オ カ カ キ ク ク ケ ケ コ コ サ サ シ ス セ セ セ ソ ソ ソ ツ ツ ツ ツ トム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ン ゙</p>
日语符号和标点符号
Unicode 代码点正则表达式:
[\x3000-\x303F]
,〃〈〈〈〉《《「」『』【〒〒〓〓〔〔〕〕〕〖〖〗〘〘〙〙〚〚〛〜〜〝〝〞〟〟〠〡〡〡〢〤〤〤〦〦〦〦 〳〴〵〶〷〸〹〺〻〼〽〾〿</p>
其他日文符号和字符
Unicode 代码点正则表达式:
[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]
ㇰㇲㇵㇶㇷㇸㇺㇻㇼㇽㇾㇿ㈡㈢㈢㈣㈣㈤㈤㈤㈥㈥㈦㈧㈧㈨㈩㈩㈪㈪㈫㈫㈬㈬㈭㈮㈯㈯㈯㈰㈰㈰㈳㈳㈳㈳㈵ ㉂㊀㊃㊄㊅㊆㊈㊉㊊㊋㊌㊍㊏㊐㊐㊑㊑㊒㊒㊒㊓㊓㊔㊕㊕㊖㊗㊗㊘㊘㊙㊙㊚㊚㊛㊜㊝㊝㊝㊞㊞㊞㊡㊡㊡㊡㊣ ㊰㊲㊵㊶㊷㊸㊺㊻㊼㊽㊾㊿㋁㋂㋂㋃㋃㋄㋄㋄㋅㋅㋆㋇㋇㋈㋉㋉㋊㋊㋋㋋㋐㋐㋑㋒㋓㋓㋓㋔㋔㋔㋗㋗㋗㋗㋙ ㋦㋨㋫㋬㋭㋮㋰㋱㋲㋳㋴㋵㋷㋸㋸㋹㋹㋺㋺㋺㋻㋻㋼㋽㋽㋾㌀㌀㌁㌁㌂㌂㌃㌃㌄㌅㌆㌆㌆㌇㌇㌇㌊㌊㌊㌊㌌ ㌙㌛㌞㌟㌠㌡㌣㌤㌥㌦㌧㌨㌪㌫㌫㌬㌬㌭㌭㌭㌮㌮㌯㌰㌰㌱㌲㌲㌳㌳㌴㌴㌵㌵㌶㌷㌸㌸㌸㌹㌹㌹㌼㌼㌼㌼㌾ ㍋㍍㍏㍑㍒㍓㍔㍖㍗㍘㍙㍚㍜㍝㍝㍝㍞㍞㍟㍟㍟㍟㍠㍡㍢㍢㍣㍤㍤㍥㍥㍦㍦㍧㍧㍨㍩㍪㍪㍫㍫㍬㍮㍮㍰㍰㍰ /p>
字母数字和标点符号(全角)
Unicode 代码点正则表达式:
[\xFF01-\xFF5E]
! 』 # $ % & ' ( ) * + , - ./ 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E FG H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` abcdefghijklmnopqrstuvvwxyz{|}~</p>
请参阅此页面以获取参考。它包含片假名、平假名和汉字 unicode 范围。
CJK(中日韩)、平假名和片假名(包括半角片假名)
所有日文字符的 Unicode 范围是多少?
查看用于书面语言识别的 WiLI 基准数据集页面,尤其是表 II。括号中的数字是您使用 Unicode 代码范围(十进制)捕获的语言的一部分。
- 12352 - 12543:日语 (48.73%)、英语 (0.00%)
- 19000 - 44000:日语(32.78%)、英语(0.00%)
- 20 - 128:英语 (99.74%)、日语 (11.58%)
您可以看到 20 - 128 非常好地捕捉到了英语,并且所有 3 个块对日语都很重要,但仍然缺少很大一部分。