0 投票

2 回答

241 浏览

regex - \b 的正则表达式

我正在用 Java 为 unicode 文本编写正则表达式。但是，对于我正在使用的特定脚本 - 梵文 (0900 - 097F)，单词边界存在问题。\b 匹配依赖元音的字符（如 093E-094C），因为它们被视为空格字符。

示例：假设我有字符串：“कमल कमाल कम्हल कम्हाल” 请注意，第二个单词中的“मा”是由 म 和 ा（识别为空格字符）组合而成。最后一句话也是如此。这导致 \b 将 'कमाल' 中的 'ल' 与正则表达式 \b\w\b 匹配，根据语言，这不正确。

我希望这个例子有帮助。

我可以编写一个行为类似于 \b 的正则表达式，但它与某些字符不匹配吗？任何反馈将不胜感激。

2009-09-22T06:18:34.730

0 投票

2 回答

1474 浏览

regex - 正则表达式帮助单词边界（需要例外）

鉴于此文本：

我可以将它与这个正则表达式匹配：

问题是如果我有这个：

第二个破折号被认为是一个单词边界，所以匹配在“世界”结束

如何在正则表达式中说“在下一个单词边界停止，除非单词边界是破折号”？

这是在.js 中，顺便说一句。

regex word-boundaries

2010-06-19T03:05:23.200

0 投票

4 回答

66931 浏览

python - re 模块中的正则表达式是否支持单词边界 (\b)？

在尝试学习更多关于正则表达式的知识时，一个教程建议您可以使用\b来匹配单词边界。但是，Python 解释器中的以下代码段无法按预期工作：

如果有任何匹配，它应该是一个匹配对象，但它是None.

Python 不支持该\b表达式还是我用错了？

python regex word-boundaries

2010-10-22T08:21:37.313

0 投票

2 回答

14514 浏览

javascript - 与单词边界相比，正则表达式 (\B) 中的非单词边界是什么？

与单词边界相比，正则表达式 (\B) 中的非单词边界是什么？

javascript regex word-boundary boundary word-boundaries

2010-12-27T20:25:31.470

0 投票

3 回答

660 浏览

ruby - irb 中的单词边界

我在雪豹上使用终端。

在命令行中，如果我输入了foo.bar.baz.bang.quuz.quux，当我点击 option-B 时，它会逐字移动光标——在每个句点处停止，因为它认为句点是单词边界。同样，选项-F 逐字向前移动。

在 irb (0.9.5, ruby 1.8.7) 中，选项-B 和 -F 也有这种行为，但句号不再被视为单词边界，这使得这些键盘快捷键的用处明显减少。

我怎样才能改变这个？

编辑：好奇和好奇：在具有相同 irb 和 ruby 版本的 EC2 实例上，句点被视为单词边界。

ruby macos readline irb word-boundaries

2011-02-23T22:17:38.303

0 投票

1 回答

1132 浏览

java - 如何找到包含括号“（”并使用单词边界的单词？

我正在寻找一个大文本中的短语“在成功中（并从失败中吸取教训！） ”。由于有括号我使用了引号（...）来允许它，但我也想使用单词边界“\ b”所以如果在这样的文本中找到这个短语将被忽略“亲属成功（并从他们的失败！）”。

这是我的代码：

如前所述，由于使用“\b”，此代码将返回 false。如果我省略了“\b”，匹配器将返回 true。有没有办法在使用 2 个条件时解决这个问题： quote(...) + "\b" ？

java regex word-boundaries

2011-03-12T08:58:16.670

0 投票

2 回答

819 浏览

c# - 词边界的音频挖掘

我打算做什么：

我想发展英语口音（无需专业培训）。

我的推理背后的一组公理和执行摘要：

以下是故意过度简化的，对此感到抱歉。我试图让问题简短。

第 1 部分：了解学习的运作方式。

目前我认为，布罗卡区和韦尼克区必须知道语言，而现有语音字母表的肌肉记忆将构建语音。口音只是通过语音字母同化随着时间自然形成。

使用谷歌我发现，语音阴影可以潜在地用于音标同化。另一方面，肌肉记忆可以通过重复动作轻松训练。这是最有效的，如果一个人是 23-24 岁并且他/她手上有很多无法解释的时间，因为失去注意力会显着降低有效的学习曲线梯度。这种程序性记忆可能会被优化为以设计的睡眠模式在记忆中刷新。

第 2 部分：设计行为模式

寻找一个流利的演讲者，我想听起来像他的口音。
区分目标重音音素和音素。
训练肌肉记忆以产生目标口音。

第 3 部分：找到一个流利的演讲者，我想听起来像他的口音。

Youtube 是一个强大的免费资源。示例音频，我很难挑选：声音的 Someone Like You- 高清的阿黛尔（封面）。

它不打扰我，它是高音调的女声。

第 4 部分：区分目标重音音素和音素。

这不是一项简单的任务——识别和判断语音电话是否正确。以及人类说出有形文字的正确程度。实际上它看起来很复杂，我不会费心让它自动化，只是使用IPA作为基线。

这是上面示例音频的美国国际音标中第一首带有单词重音的诗篇：

无侵犯版权之意。并且图像是使用upodn创建的（替代方法：photransedit）。

第 5 部分：训练肌肉记忆以产生目标口音。

虽然尝试模仿和存档同步很有趣，但我更喜欢构建一个工具，将单词提取为音频文件。所以我可以使用 winamp 或 ipod 循环播放我想要的单词。

我想，我可以为此使用 MS Expression Encoder。

问题

如果给定一个音频文件（例如 wav 格式，大小 < 32mb）并且它是等效的文本（有限 nr 个单词，例如 2000），那么如何将其拆分为多个文件，每个文件包含 1 个单词。Word 可以包含一些多余的空格，并且边界检查可以由用户批准。如果它不准确，那么最好的方法是获得对单词边界的良好估计。

主要目的是减少我会做的工作，如果这将是手动完成的话。

c#algorithm word-boundaries

2011-04-25T00:16:39.323

0 投票

2 回答

141 浏览

regex - 具有扩展字符集的单词边界

\w对我来说，这似乎有点奇怪[a-zA-Z0-9_]。我想知道为什么0-9和_被计算在单词字符之间，为什么-不被计算在单词字符之间。

如果我想拆分句子：

This is counter-example.

(\w*\b)它将把反例这个词分成两部分。同样(count.*?\b)只匹配counter。

是否有可能与包含在单词字符 ( ) 中\b的结果类似？-\w

还是我误解了的用法\b？有一些标准用法的例子吗？

regex word-boundaries

2011-12-16T19:22:36.070

0 投票

4 回答

33583 浏览

html - 列表项在列表和 div 区域之外运行

我遇到了菜单无序列表的问题。因此，列表项超出了边界，<ul>并且<div>只有在到达屏幕边缘后才开始下一行。

继承人的网站： http: //finalonline.co.uk/mypics/gallery/categories/

html css overflow html-lists word-boundaries

2012-01-04T17:03:59.310

0 投票

1 回答

2278 浏览

jtextarea - 如果附加文本，JTextArea setWrapStyleWord(true) 不起作用

根据 Oracle 在JTextArea 文档中的说法，如果您希望换行并在字边界而不是字符边界处换行，则必须使用如下代码：

请注意 jtaOutputPrimes 是 myJTextArea上 my的名称JPanel。
当我使用方法 append 将文本添加到 JTextArea 时，问题就出现了，如下所示：

在这种情况下，setWrapStyleWord设置不起作用。它继续使用字符边界而不是单词边界。

我发现另一个人在这里遇到同样的问题： setWrapStyleWord 问题

现在，假设您正在运行一个JApplet具有 this的JTextArea. 如果您在文本区域中键入，它会自动换行，但是从 append 方法传递的任何文本都不起作用。

我相信这是一个错误，我在任何地方都找不到 Oracle 承认它。

任何人都可以帮忙吗？谢谢！

jtextarea word-boundaries

2012-11-06T02:18:22.277

问题标签 [word-boundaries]

我打算做什么：

我的推理背后的一组公理和执行摘要：

第 1 部分：了解学习的运作方式。

第 2 部分：设计行为模式

第 3 部分：找到一个流利的演讲者，我想听起来像他的口音。

第 4 部分：区分目标重音音素和音素。

第 5 部分：训练肌肉记忆以产生目标口音。

问题

Reference