问题标签 [word-boundaries]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - \b 的正则表达式
我正在用 Java 为 unicode 文本编写正则表达式。但是,对于我正在使用的特定脚本 - 梵文 (0900 - 097F),单词边界存在问题。\b 匹配依赖元音的字符(如 093E-094C),因为它们被视为空格字符。
示例:假设我有字符串:“कमल कमाल कम्हल कम्हाल” 请注意,第二个单词中的“मा”是由 म 和 ा(识别为空格字符)组合而成。最后一句话也是如此。这导致 \b 将 'कमाल' 中的 'ल' 与正则表达式 \b\w\b 匹配,根据语言,这不正确。
我希望这个例子有帮助。
我可以编写一个行为类似于 \b 的正则表达式,但它与某些字符不匹配吗?任何反馈将不胜感激。
regex - 正则表达式帮助单词边界(需要例外)
鉴于此文本:
我可以将它与这个正则表达式匹配:
问题是如果我有这个:
第二个破折号被认为是一个单词边界,所以匹配在“世界”结束
如何在正则表达式中说“在下一个单词边界停止,除非单词边界是破折号”?
这是在.js 中,顺便说一句。
python - re 模块中的正则表达式是否支持单词边界 (\b)?
在尝试学习更多关于正则表达式的知识时,一个教程建议您可以使用\b
来匹配单词边界。但是,Python 解释器中的以下代码段无法按预期工作:
如果有任何匹配,它应该是一个匹配对象,但它是None
.
Python 不支持该\b
表达式还是我用错了?
javascript - 与单词边界相比,正则表达式 (\B) 中的非单词边界是什么?
与单词边界相比,正则表达式 (\B) 中的非单词边界是什么?
ruby - irb 中的单词边界
我在雪豹上使用终端。
在命令行中,如果我输入了foo.bar.baz.bang.quuz.quux
,当我点击 option-B 时,它会逐字移动光标——在每个句点处停止,因为它认为句点是单词边界。同样,选项-F 逐字向前移动。
在 irb (0.9.5, ruby 1.8.7) 中,选项-B 和 -F 也有这种行为,但句号不再被视为单词边界,这使得这些键盘快捷键的用处明显减少。
我怎样才能改变这个?
编辑:好奇和好奇:在具有相同 irb 和 ruby 版本的 EC2 实例上,句点被视为单词边界。
java - 如何找到包含括号“(”并使用单词边界的单词?
我正在寻找一个大文本中的短语“在成功中(并从失败中吸取教训!) ”。由于有括号我使用了引号(...)来允许它,但我也想使用单词边界“\ b”所以如果在这样的文本中找到这个短语将被忽略“亲属成功(并从他们的失败!)”。
这是我的代码:
如前所述,由于使用“\b”,此代码将返回 false。如果我省略了“\b”,匹配器将返回 true。有没有办法在使用 2 个条件时解决这个问题: quote(...) + "\b" ?
c# - 词边界的音频挖掘
我打算做什么:
我想发展英语口音(无需专业培训)。
我的推理背后的一组公理和执行摘要:
以下是故意过度简化的,对此感到抱歉。我试图让问题简短。
第 1 部分:了解学习的运作方式。
目前我认为,布罗卡区和韦尼克区必须知道语言,而现有语音字母表的肌肉记忆将构建语音。口音只是通过语音字母同化随着时间自然形成。
使用谷歌我发现,语音阴影可以潜在地用于音标同化。另一方面,肌肉记忆可以通过重复动作轻松训练。这是最有效的,如果一个人是 23-24 岁并且他/她手上有很多无法解释的时间,因为失去注意力会显着降低有效的学习曲线梯度。这种程序性记忆可能会被优化为以设计的睡眠模式在记忆中刷新。
第 2 部分:设计行为模式
- 寻找一个流利的演讲者,我想听起来像他的口音。
- 区分目标重音音素和音素。
- 训练肌肉记忆以产生目标口音。
第 3 部分:找到一个流利的演讲者,我想听起来像他的口音。
Youtube 是一个强大的免费资源。示例音频,我很难挑选:
Someone Like You
- 高清的阿黛尔(封面)。
它不打扰我,它是高音调的女声。
第 4 部分:区分目标重音音素和音素。
这不是一项简单的任务——识别和判断语音电话是否正确。以及人类说出有形文字的正确程度。实际上它看起来很复杂,我不会费心让它自动化,只是使用IPA作为基线。
这是上面示例音频的美国国际音标中第一首带有单词重音的诗篇:
无侵犯版权之意。并且图像是使用upodn创建的(替代方法:photransedit)。
第 5 部分:训练肌肉记忆以产生目标口音。
虽然尝试模仿和存档同步很有趣,但我更喜欢构建一个工具,将单词提取为音频文件。所以我可以使用 winamp 或 ipod 循环播放我想要的单词。
我想,我可以为此使用 MS Expression Encoder。
问题
如果给定一个音频文件(例如 wav 格式,大小 < 32mb)并且它是等效的文本(有限 nr 个单词,例如 2000),那么如何将其拆分为多个文件,每个文件包含 1 个单词。Word 可以包含一些多余的空格,并且边界检查可以由用户批准。如果它不准确,那么最好的方法是获得对单词边界的良好估计。
主要目的是减少我会做的工作,如果这将是手动完成的话。
regex - 具有扩展字符集的单词边界
\w
对我来说,这似乎有点奇怪[a-zA-Z0-9_]
。我想知道为什么0-9
和_
被计算在单词字符之间,为什么-
不被计算在单词字符之间。
如果我想拆分句子:
This is counter-example.
(\w*\b)
它将把反例这个词分成两部分。同样(count.*?\b)
只匹配counter
。
是否有可能与包含在单词字符 ( ) 中\b
的结果类似?-
\w
还是我误解了 的用法\b
?有一些标准用法的例子吗?
html - 列表项在列表和 div 区域之外运行
我遇到了菜单无序列表的问题。因此,列表项超出了边界,<ul>
并且<div>
只有在到达屏幕边缘后才开始下一行。
继承人的网站: http: //finalonline.co.uk/mypics/gallery/categories/
jtextarea - 如果附加文本,JTextArea setWrapStyleWord(true) 不起作用
根据 Oracle 在JTextArea 文档中的说法,如果您希望换行并在字边界而不是字符边界处换行,则必须使用如下代码:
请注意 jtaOutputPrimes 是 myJTextArea
上 my的名称JPanel
。
当我使用方法 append 将文本添加到 JTextArea 时,问题就出现了,如下所示:
在这种情况下,setWrapStyleWord
设置不起作用。它继续使用字符边界而不是单词边界。
我发现另一个人在这里遇到同样的问题: setWrapStyleWord 问题
现在,假设您正在运行一个JApplet
具有 this的JTextArea
. 如果您在文本区域中键入,它会自动换行,但是从 append 方法传递的任何文本都不起作用。
我相信这是一个错误,我在任何地方都找不到 Oracle 承认它。
任何人都可以帮忙吗?谢谢!