问题标签 [hyphenation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 检测单词中的音节
我需要找到一种相当有效的方法来检测单词中的音节。例如,
隐形 -> in-vi-sib-le
有一些可以使用的音节规则:
V CV VC CVC CCV CCCV CVCC
*其中 V 是元音,C 是辅音。例如,
发音(5 Pro-nun-ci-a-tion;CV-CVC-CV-V-CVC)
我尝试了几种方法,其中使用正则表达式(仅在您想计算音节时才有帮助)或硬编码规则定义(证明非常低效的蛮力方法),最后使用有限状态自动机(确实没有任何有用的结果)。
我的应用程序的目的是创建给定语言的所有音节的字典。该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成。
除了我以前的方法之外,如果有人能给我关于解决此问题的替代方法的提示,我将不胜感激。
我在 Java 中工作,但 C/C++、C#、Python、Perl 中的任何技巧都对我有用。
latex - 如何在 LaTeX 中表示类名?
您认为在 LaTeX 文档中呈现类名的最佳方式是什么(撰写关于软件的文章)。
我目前正在使用\texttt
(等宽打字字体),它可以正常工作,但我的类名最终会“超出”边距。
所以,我要求要么
- 表示类名的另一种(好看的)方式
- 确保我的类名不会超出页边距的方法
兄弟,图科
latex - TeX连字符模式:它们代表什么
如果您向下滚动此页面,您会看到英国英语的连字符模式,例如:
这些像 .ab4i 这样的模式是什么意思?
latex - 防止 \texttt LaTeX 标记让其内容越过边距
在我的报告中,我在段落内写了一些类名或变量名,我希望这些名称以等宽字体呈现。
例子:
有时,当 \texttt 标记内的单个单词呈现在行尾时,该单词不会转到下一行,也没有中断:单词的结尾超出了页边距。
我该如何处理这种情况?
干杯。
latex - 如何让 LaTeX 连字符包含破折号的单词?
在我正在编写的 LaTeX 文档中,由于“多学科”一词恰好出现在一行的末尾,我收到了一个过满的 hbox警告。
我可以通过把它改成 来摆脱这个特殊的警告multi-discipli\-nary
,但是同样的问题也会在其他地方发生,因为这个词在论文中被大量使用。
我想改用该\hyphenation{}
命令,但显然我的试探性\hyphenation{multi-disci-pli-na-ry}
不起作用,因为它无法正确理解第一个破折号。
我需要什么咒语才能在已经包含破折号的单词中获得正确的缩进?
奖励问题:我自己在哪里可以找到该问题的答案?
latex - MikTeX 2.8 没有为 pdfLaTeX 添加断字支持
我正在使用 MikTeX 2.8 版本,并安装了匈牙利语支持和连字符文件。使用标准的 LaTeX 命令它们工作正常,但是当我尝试使用 pdfLaTeX 时,它们没有被加载,我得到了
信息。使用乳胶它工作正常:
我尝试更新 FNDB 和格式,但无济于事。
actionscript-3 - 任何人都能够将 sIFR 翻译成 AS3(用于连字符并在转换器的帮助下)?
sIFR 要求很多的一件事是连字符。
现在我几乎通过集成 Hyphenator.as http://vis4.net/blog/2010/05/as3-hyphenation/解决了这个问题。
唯一的问题是 Hyphenator.as 是用 AcionScript 3 编写的,而 sIFR 是用 ActionScript 2 编写的。
我找到了一个 AS2 到 AS3 转换器 www.5etdemi.com/blog/archives/2006/11/as2-to-as3-converter-createtextfield-geturl-handling/ 但结果 examples.bezel.be/sIFR-as3.as 是还没有工作。
任何人都可以为 sIFR 中的断字工作做出贡献吗?
(抱歉链接,但奇怪的是我只允许发布一个链接。真的很奇怪。)
browser - 如何忽略可选连字符的拼写检查单词?
我正在使用 RTE (TinyMce) 在浏览器中创建文本。RTE 正在将不可见的可选连字符(代码:'' 或 '\u00ad')插入到最小长度的单词中,以便在用户编写时进行连字符。
我现在遇到的问题是找到一个能够检查我的单词的拼写检查器,即使它们不仅包含字母,还包含可选的连字符。我确实只找到了拼写检查器,即检查“goldfish”这个词将其视为“gold”和“fish”之间可选连字符的两个词的原因。
是否有可以以任何方式修改以忽略它们的拼写检查器?有没有办法配置拼写检查器以忽略此类软连字符?(该解决方案不需要是开源的。)
将单词添加到字典不是一种选择。
该解决方案应该适用于 Safari 或 FireFox。
nlp - 检测包含非字母字符的单词中的音节
我正在实施可读性测试并实施了检测音节的简单算法。检测元音序列我用单词来计算它们,例如单词“shoud”包含一个元音序列,即“ou”。在计算它们之前,我要删除 -les、-e、-ed 之类的后缀(例如,单词“like”包含一个音节,但包含两个元音序列,所以这种方法有效)。
但是......考虑这些单词/序列:
- X 射线(它包含两个音节)
- 我是(一个音节,也许我可以删除文本中的所有撇号?)
- 进去'
- 我本来
- n'(例如 Pork n' Beans)
- 3rd(如何治疗?)
- 12345
特殊字符怎么办?全部删除?大多数单词都可以,但不能使用“n'”和“x-ray”。以及如何对待密码。
这些是单词的特殊情况,但我很高兴看到这个主题的一些经验或想法。