问题标签 [word-boundary]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 需要 C# 字边界正则表达式而不是 .Contains()
我有一个清单:
我有一个字符串:
我正在尝试计算 inside 中的单词匹配myList
数myString
。目前,我正在使用.Contains()
,这让我得到了 3 的计数,因为它在“Alfred”中拾取“红色”。我需要能够单独使用单词。如何做到这一点?
c# - 词边界正则表达式问题(重叠)
给定以下代码:
我想要包含的结果,m
因为"red shirt", "blue", "red"
所有这些都在字符串中,但我只得到"red shirt", "blue"
. 我可以做些什么来包括重叠?
javascript - 与单词边界相比,正则表达式 (\B) 中的非单词边界是什么?
与单词边界相比,正则表达式 (\B) 中的非单词边界是什么?
python - 分词高棉语的可行解决方案?
我正在研究一种解决方案,将高棉(柬埔寨语)的长行拆分为单个单词(UTF-8 格式)。高棉语不使用单词之间的空格。有一些解决方案,但它们还远远不够(这里和这里),而且这些项目已经被搁置了。
这是需要拆分的高棉示例行(它们可能比这更长):
创建一个分割高棉语单词的可行解决方案的目标是双重的:它将鼓励那些使用高棉传统(非 Unicode)字体的人转换为 Unicode(这有很多好处),并且它将允许导入传统高棉字体转换成 Unicode 以便快速与拼写检查器一起使用(而不是手动检查和拆分单词,这对于大型文档可能需要很长时间)。
我不需要 100% 的准确率,但速度很重要(特别是因为需要拆分成高棉语单词的行可能很长)。我愿意接受建议,但目前我有大量正确拆分的高棉语词库(带有不间断空格),并且我创建了一个单词概率字典文件(frequency.csv)用作字典分词器。
我在这里找到了这个使用Viterbi 算法的python 代码,据说它运行得很快。
我还尝试使用此页面作者的源 java 代码:文本分割:基于字典的分词,但运行速度太慢而无法使用(因为我的单词概率字典有超过 100k 的术语......)。
这是 Python 中的另一个选项,来自Detect most possible words from text without spaces / combine words:
我是 python 的新手,我对所有真正的编程(网站之外)都很陌生,所以请多多包涵。有没有人有任何他们认为会很好的选择?
javascript - 字边界与 Javascript 中的开头或结尾不匹配
这段代码我得到了意想不到的结果:
为什么这个返回null
,而这个返回“foo”?
单词边界标记是否也与开头和结尾匹配?
编辑:我需要正则表达式本身是一个字符串,因为我正在向其中注入变量。
regex - 用于匹配锚否定和字符串的正则表达式
Token
我正在尝试通过用另一个正则表达式替换正则表达式来在特定字符串(例如)之前添加一个空格:somethingToken
应该成为something Token
但something Token
应该保留
something Token_
而不是
something Token
(有2个空格)
我很难找到一个匹配非空格字符然后是 Token 但不包括匹配中的非空格字符的正则表达式(否则它也会被替换)。一个(失败的)尝试是试图否定一个\b
锚(它应该匹配一个单词的开头),但我不知道我是否可以否定一个锚。对此的任何帮助表示赞赏。谢谢。
regex - Oracle REGEXP_LIKE 和字边界
我在将单词边界与 REGEXP_LIKE 匹配时遇到问题。以下查询按预期返回单行。
但我也想匹配单词边界。因此,添加“\b”字符会给出此查询
运行此返回零行。有任何想法吗?
javascript - 用于在 Unicode 字符串中搜索单词边界的 Javascript 正则表达式
是否有通过 JavaScript 正则表达式(使用“xregexp”JS library cab)在日语字符串中查找单词边界的解决方案(例如:“私はマーケットに行きました。”)?
例如:
对于日语字符串,我需要相同的逻辑。
javascript - 正则表达式:单词开头的磅符号
我正在尝试查找以井号开头的单词。Javascript。
然而单词边界似乎不适用于#-符号。它输出:
我也有点困惑,我需要在替换模式“<#$1>”中再次添加#-符号,因为该算法似乎在此过程中将其剥离。
regex - 尖括号与边界相邻时的正则表达式单词边界问题
正则表达式:
示例字符串:
我不确定为什么找不到 síntomas和<之间的单词边界。>和tienen之间的另一边也存在同样的问题
关于我如何更恰当地匹配这个边界的建议?
当我给它以下输入时,正则表达式按预期匹配:
删除边缘条件 \b\bPHRASE\b
不是一个选项,因为它无法匹配部分单词
更新
这成功了:(感谢Igor、Mosty、DK和NickC)
我需要改进我的边界匹配[\s\.\?\!]
,使这些边缘匹配正向向前和向后。