swift - 快速检查或验证波斯语（波斯语）字符串

Question

我搜索了有关验证波斯语（波斯语）语言字符串的网页和堆栈溢出。他们中的大多数都提到了阿拉伯字母。另外，我想知道我的字符串是否完全是波斯语（不包含）。例如，这些字符串是波斯语：

“テهار راه”

“خیابان。”

这些不是：

"خیابان 5"

"چرا 复制 کردی؟"

此外，只允许使用波斯语或阿拉伯语数字。[.,-!] 字符有例外（因为键盘不支持波斯语中的这些字符）

更新：我在回答中解释了使用正则表达式和谓词的快速版本。

score 3 · Accepted Answer

基于在其他地方找到的这个扩展：

       extension String {
           func matches(_ regex: String) -> Bool {
           return self.range(of: regex, options: .regularExpression, range: nil, locale: nil) != nil
           }
        }

并构建包含允许字符的正则表达式，例如

    let mystra = "چهار راه"
    let mystrb = "خیابان."
    let mystrc = "خیابان 5"
    let mystrd = "چرا copy کردی؟"      //and so on
    for a in mystra {
        if String(a).matches("[\u{600}-\u{6FF}\u{064b}\u{064d}\u{064c}\u{064e}\u{064f}\u{0650}\u{0651}\u{0020}]") {  // add unicode for dot, comma, and other needed puctuation marks, for now I added space etc

    } else {         // not in range
        print("oh no--\(a)---zzzz")
        break        // or return false 
        }
    }

确保使用上述模型构建所需的 Unicode。mystrb 中 a 的其他字符串的结果...等 oh no--.---zzzz oh no--5---zzzz oh no--c---zzzz

享受

score 1 · Accepted Answer

一段时间后，我可以找到更好的方法：

extension String {
 var isPersian: Bool {
        let predicate = NSPredicate(format: "SELF MATCHES %@",
                                    "([-.]*\\s*[-.]*\\p{Arabic}*[-.]*\\s*)*[-.]*")
        return predicate.evaluate(with: self)
    }

}

你可以这样使用：

print("yourString".isPersian) //response: true or false

主要关键是使用正则表达式和谓词。这些链接可帮助您操作您想要的任何内容：

https://nshipster.com/nspredicate/

https://nspredicate.xyz/

http://userguide.icu-project.org/strings/regexp

随意询问有关此主题的任何问题：D

[编辑] 以下正则表达式可用于接受拉丁数字，因为它们大多在波斯文本中被接受

"([-.]*\\s*[-.]*\\p{Arabic}*[0-9]*[-.]*\\s*)*[-.]*"

swift - 快速检查或验证波斯语（波斯语）字符串

2 回答 2

Related

Reference