我需要用泰语对文本文档进行矢量化(例如 Bag of Words、doc2vec)。
首先,我想检查每个文档,省略除泰语字符和英语单词之外的所有内容(例如,没有标点符号、没有数字、除了撇号之外没有其他特殊字符)。
对于英文文档,我使用这个正则表达式:
[^a-zA-Z' ]|^'|'$|''
对于泰语文档,我找不到要使用的正确正则表达式。我知道泰语的 Unicode 块是 u0E00–u0E7F。我尝试[^ก-๛a-zA-Z' ]|^'|'$|''
了许多其他组合,但没有成功。
例如:我想要
“ทรูวิชั่นส์ถ่ายทอดศึกฟุตบอลพรีเมียร์ลีกลีกอังกฤษครบทุกเป็นเป็นเป็นเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาเวลาปีตั้งตั้งตั้งตั้งตั้งตั้งตั้งแต่แต่แต่ฤดูกาลฤดูกาลฤดูกาล2016/2017-2018/2018/2019พร้อมพร้อมพร้อมพร้อมพร้อมอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีกอีก งฝรั่งเศสภายใต้คุ้มทั้งผ่านผ่านมือถือและโทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์โทรทัศน์
成为:
“”ทรูวิชั่นส์สดฟุตบอลพรีเมียร์อังกฤษครบนัดเวลาปีตั้งแต่แต่ฤดูกาลพร้อมพร้อมด้วยด้วยอีกอีกอีกอีกลีกลาลาลีกาลีกาลีกาลีกาลีกาลีกาลาลาลาลาลาลาลาลาลา ทั้งผ่านมือถือ และโทรทัศน์一些英文单词abc"