问题标签 [devanagari]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
6728 浏览

python - 组合梵文字符

我有类似的东西

我想实现类似

但是由于 म 需要 4 个字节,而 बि 需要 8 个字节,所以我无法直截了当。那么可以做些什么来实现这一目标呢?在 Python 中。

0 投票
2 回答
773 浏览

unicode - 梵文中的连接字母是如何呈现的?

考虑下图中的字母。

第一行显示字母本身,第二行对其进行编号,第三行显示其编码为三个十六进制 UFT-8 字节的 unicode 代码点。例如,字母 2 是 DEVANAGARI LETTER MA,代码点0x92E (= 2350 decimal)为 ,编码为三个十六进制 UTF-8 字节:e0, a4, ae

我的问题是关于特定连接字母的呈现,例如(1)。渲染系统如何处理这个渲染?我们通常输入这个连接字母的方式是首先输入字母 2,然后输入字母 4(表明我们打算将这个字母与下一个字母连接起来),然后输入字母 3。然后,渲染系统通过擦除垂直线来尊重连接动作在字母 2 中并在此处覆盖字母 4。我不清楚完整字母 2 及其垂直线擦除一半的字体(显示为淡红色椭圆形)在所选字体中是否可用

有人可以解释这是如何工作的吗?

在此处输入图像描述

0 投票
1 回答
1273 浏览

translation - 罗马文字印地语文本的大型语料库

我在哪里可以找到这样的语料库?我需要它在标记(单词)级别构建印地语和英语之间的语言检测器。

例如,像罗马字母中的印地语维基百科这样的东西会非常有用。还是短篇小说、社交媒体帖子或推文或博客?有任何想法吗?

据我所知,现有的音译引擎并不是那么好。如果有好的,也会考虑使用。

0 投票
2 回答
423 浏览

nlp - 梵文文本处理 (NLP) 从哪里开始

我是 Devnagaric NLP 的新手,是否有任何团体或资源可以帮助我开始使用 Devnagaric 语言(主要是尼泊尔语或类似印地语)的 NLP。我希望能够为梵文开发字体并做一些字体处理应用程序。如果有人(在该领域工作)可以给我一些建议,那将是非常可观的。提前致谢

0 投票
0 回答
2899 浏览

java - 如何使用 java 中的 itext 库将马拉地语/印地语文本写入 PDF?

我正在使用 itext 库在 java 中创建 pdf。我需要将马拉地语/印地语文本写入 PDF。

请参考以下类似的 SO 问题。

itext 马拉地语(印度)语言显示问题

我也有同样的问题。既然,这是一个旧帖子,那么到今天为止,itext 是否有任何支持?

上述 SO 帖子中提到的将马拉地语文本绘制为图像的解决方案,因为我将在不同的表格、单元格等中有多个这样的马拉地语文本,因此可能很难在确切的 x 和 y 位置绘制它们,因为数据会有所不同。

下面是我的代码

0 投票
2 回答
796 浏览

python - python 正则表达式匹配英语和泰卢固语/天城文单词

我需要一些帮助来从包含英语和泰卢固语的混合语言中获取单词,这是我到目前为止的代码

我期待的结果是

但我得到的结果是

代码拆分语言的每个字符并给出独立的开始和结束长度。有什么方法可以让我得到上述格式的结果作为单词而不是字符

0 投票
1 回答
1083 浏览

itext7 - Itext7 PDFCalligraph 模块无法按预期为印度字体工作

我正在使用 itext7 PDFCalligraph 模块通过 java Web 应用程序在 pdf 中呈现印地语字体。注册后我已经为此获得了试用许可证密钥,并且它也可以正确加载。但是复杂的印地语字母没有按预期呈现,使用 Calligraph 模块后应该是这种情况。PL。帮助。下面给出的代码片段..

感谢大家的投入。我确实忘记加载 callipgraph 依赖项,只加载了许可证模块依赖项。感谢您的指点。

0 投票
2 回答
739 浏览

python - PyGame 中的梵文文本渲染不正确

我们有一个小型 Web 应用程序,我们想将它转换成原生的东西。现在,它有很多活动部件(后端、浏览器等),我们希望将其转换为一个紧凑的应用程序。我们决定使用 PyGame 来完成这项工作,到目前为止一切都很好,除了字体渲染问题。

我要渲染的字符串是कोझिकोड。这个,正确渲染看起来像正确渲染

具体码位为 \u0915 \u094b \u091d \u093f \u0915 \u094b 和 \u0921

现在,这在我的编辑器和浏览器中看起来不错,但是当我尝试在 PyGame 中渲染它时,我得到了这个错误渲染. 基本上,元音符号 (\u093f ि) 应该在 झ 的左边,但它出现在它的右边(和 क 的左边),从而完全搞砸了。这不会发生在浏览器或文本编辑器(具有相同的输入字符串)中,所以我猜这是 PyGame 中的渲染器问题。

有一个粗略的解决方法仅适用于这种特定情况,即将 ि (\u093f) 放在 झ (\u091d) 之前。在这种情况下,它会像这样正确渲染粗修。这取决于我对语言的了解并将该逻辑放入代码中。我必须在这里处理多种语言,所以这并不可行。

我对unicode没有太多经验,所以我不知道如何解决这个问题。我能做些什么来解决这个问题吗?

万一这很重要,我使用的是 Debian 上的freesans字体,它有必要的字形来渲染它。

更新: 实际渲染的代码如下

这就是它的样子渲染错误

第一个单词是正确呈现的,但我们已经通过反转元音和字母位置来完成它,正如我在粗略的修复中提到的那样。第二个编写正确但未正确呈现。

更新 2:在没有其他任何东西的情况下,我决定尝试使用外部程序将字符串渲染成图像,然后将该图像 blit 到 PyGame Surface 上。我尝试了 imagemagick,但它以与此相同的方式使我们感到困惑。Gimp 工作正常,所以我打算使用批处理模式来完成我的工作。

0 投票
1 回答
208 浏览

python - 如何从以 utf-8 编码的列表中手动选择元素?

我有一个看起来像这样的列表:

['क', ',', 'म', '-', 'ह', 'औ', "'", ')', '(', 'स', '.', 'ए', ' प'、'श'、'भ'、'ल'、'य'、'न'、'इ'、'}'、'ज'、'र'、'उ'、'ग'、'द' , 'त', 't', 'थ', 'ब', 'अ', 'ई', 'o', '%', 'व', 'a', 'आ', '#', ' -'、'q'、'i'、'।'、'/'、'ओ'、'फ'、'f'、's'、'u'、'!'、'?'、'ध' , 'ऐ', '१', '+', '२', 'p', 'd', 'j', 'च', 'ऑ', 'b', 'छ', 'ऊ', ' l', 'e', 'w','ख'、'घ'、'c'、'r'、'y'、'g'、'n'、'ट'、'ड'、'x'、'५'、'"'、'३ '、'm'、'ठ'、'h'、'४'、'•'、'$'、'>'、'v'、'z'、'झ'、'७'、'—'、 '६'、'k'、'ढ'、'८'、'&'、'ऋ'、'\'、'९'、'✉'、'०'、'॥'、'°'、'^ ', '~', '-', '·', 'ॐ', '×', '_', '→', '☆', '£', '€', 'α', ''', 'ष'、'±'、'†'、'β'、'@'、'\u200e'、'░'、'¬'、'₹'、'π'、'½'、'...'、' ऍ', 'º','σ'、'γ'、'δ'、'ऽ'、'0'、'²'、'ङ'、'ॠ'、'à'、'≥'、'ः'、'ऎ'、'ω ', 'μ', '{', 'ण', 'ं', '≈', 'ε', 'λ', 'θ', '्', '<', '↑', '\uf0a7' , 'φ', '\u200b', '', 'ञ', 'о', 'ƒ', '©', '←', 'ळ', 'ा', '■', '¢', ' ρ'、'∞'、'î'、'⁄'、'√'、'ব'、'§'、'¾'、'≤'、'॰'、'্'、'é'、'و' , '`', '¥', '♂', '₩', 'å', '´', 'ü', 'á', 'ó', 'ভ', 'в', '¼', ' ़', 'è', 'ʁ', 'े', 'и', '≡', 'ζ', 'í', '↙', '″', '\u200d', '₫', 'م', '»', 'ː ','‡','ö','ँ','د','η','ð','♦','শ','প','ी','ú','⅓', 'ب', '≠', 'κ', '∈', 'ç', '�', 'এ', 'উ', 'র', 'ν', 'â', 'ê', 'ū ', 'к', 'ø', 'ù', 'ā', 'ä', 'æ', '↓', 'ô', 'স', 'ो', 'ō', '●', 'ē','₨','ि','„','ī','฿','ò','τ','ਸ','ऩ','ª','р','ত ', 'н', 'с', 'χ','ಕ','ë','ॉ','خ','ا','ψ','а','¿','ì','ý','µ','ौ' , 'š', '‰', '÷', 'ি', 'আ', 'ə', 'у', '★', 'ل', 'ॡ', 'č', '⊕', ' ृ','ñ','ै','û','ु','ू','м','þ','г','ι','മ','پ','☉' , 'த', 'ш', '¤', 'е', '', 'ş', 'ã', 'ž', 'খ', 'ع', '水', 'õ', 'ক ','д','ï','ج','ধ','ж','ऒ','ଓ','¹','ॅ','ħ','ন','ও', 'ʃ', '\u200c', 'ز','х','מ','⊂','ф','য','എ','\u202a','ষ','九','♣','ł','ऌ ','া','త','з','ß','ف','ר','―','п','غ','ऱ','ر','ŋ', 'φ', 'ऴ', 'ክ', 'ğ', 'ą', 'ś', 'ę', '¨', 'ч', 'ż', '№', 'س', 'œ '、'ă'、'♠'、'ش'、'◾'、'\uf0fc'、'ÿ'、'ש'、'\ufeff'、'ಜ'、'ن'、'ʊ'、'³ ','ć','آ','চ','ɛ','я','이','đ','জ','ġ','⅜','ɑ','˚', 'ξ', 'л', 'б','т','ц','∟','й','ಭ','സ','ɒ','అ','న','⍨','⌛','⌣' , 'ĝ', 'ő', 'ĉ', '،', 'ċ', 'ĵ', 'ژ', 'হ', 'ŝ', 'ণ', '冲', '⅞', ' ت', '١', 'ɸ', 'ɪ', 'ʌ', 'ě', 'ע', '¸', 'দ', 'ŭ', '∧', 'أ', 'અ' , 'ɨ', 'ĥ', '∀', 'ગ', 'ű', 'ʒ', 'ح', 'ث', '█', '∩', 'ق', '↔', ' ®','ਪ','⇒','⅔','∑','⇔','ழ','ю','月','ذ','ǻ','ń','∪' , 'ك', 'ʰ', 'ё','э'、'™'、'ض'、'ਦ'、'ɹ'、'☞'、'ঞ'、'ম'、'ু'、'②'、'道'、'ӏ'、'大','щ','א','ʔ','ǁ','ה','∂','ţ','പ','∨','성','ỳ','ബ', '∇'、'ظ'、'ط'、'ẽ'、'ص'、'ಶ'、'υ'、'ഞ'、'қ'、'ỹ'、'ź']'ص', 'ಶ', 'υ', 'ഞ', 'қ', 'ỹ', 'ź']'ص', 'ಶ', 'υ', 'ഞ', 'қ', 'ỹ', 'ź']

我只需要从上述字符中选择梵文字符(即'अ', 'आ'... 'क','ख','घ'..)。除了手动选择索引之外,还有其他方法可以在 python 中执行此操作吗?

0 投票
2 回答
462 浏览

python - 梵文的音节化

我正在尝试音节化梵文单词

धर्मक्षेत्रे -> धर् मक् षेत् रे dharmakeshetre -> dhar mak shet re

我得到的结果是:

这是部分正确的

我尝试另一个词कुरुक्षेत्र -> कु रुक् षेत् रे kurukshetre -> ku ruk she tre

结果显然是错误的。

如何有效地提取音节?