问题标签 [devanagari]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 导入库并在 jquery 中使用它
我的意图是对用户输入的文本进行Sandhi。
我正在尝试将node.js 的这个梵文外部 Sandhi 规则模块导入我的代码并使用这些函数。
我的html如下:
我的js如下:
但是,它没有按预期工作。
pdf - 从 PDF 的多个页面中提取相同(矩形)区域
我需要在数百页的 PDF 文件的不同页面上提取相同的矩形区域(在相同的位置)。
我正在运行 Linux,并找到了一种使用 Tesseract 和前端 gImageReader 手动执行此操作的方法,并且正在寻找一种方法来自动化此过程。
我需要提取的信息是印地语文本(用梵文编写),因此将数据提取为文本(没有印地语 OCR)可能会产生不好的结果,但如果有办法将其提取为图像也可以,然后我可以在一个单独的步骤中对 Tesseract 中收集的数据进行 OCR。
所以我正在寻找的是一种从 PDF 的不同页面复制相同区域并将它们输出到另一个文件(例如另一个 PDF 或图像文件)的方法。
我已经看到发布了其他类似的问题,但他们专门要求提取文本,在这种情况下不一定需要。
如果有办法通过将 PDF 转换为图像文件来做到这一点,那也会很有趣。
PS:我现在正在考虑在终端中执行此操作(使用 Gimp),按照 Dmitri Z 的建议。
对于那些对 GUI 感兴趣的人,我发现了 Phatch for Linux,它非常适合批量处理图像,以及直接(批量)裁剪 PDF 文件。
如果有人知道从 1 张图像中提取 2 个不同矩形区域的方法,那将很有帮助。
python - Tkinter 文本小部件梵文字体渲染(Windows 10、Python 3)
我正在使用 Tkinter/Python3 开发 Devanagari/Indic 编辑器,并且对 Text 小部件字体渲染有疑问。
梵文(以及所有印度语言文字)是一个字母音节,辅音组(“簇”)和元音符号形成一个音节。辅音使用 Unicode ZWJ 字符连接,Text 小部件负责呈现(元音变音符号可能会重新排序)。出现在辅音之后的元音字符使用变音符号形式而不是它们的完整形式。请参阅 Microsoft 的以下说明。
天城文音节- 天城文 > 书写系统的有效正字法“单位”。音节由辅音字母、独立>元音和从属元音组成。在文本序列中,这些字符 > 按音序存储(尽管它们在显示时可能不按音序表示)。音节一经定形,便不可分。 光标不能定位在音节内。>本文档中讨论的转换不跨越音节边界。
当不使用鼠标拖动选择文本时,我会注意 Python 事件处理程序,以便 INSERT 和 CURRENT 光标永远不会位于音节内的字符位置,因此不会显示元音变音符号和辅音半形式。
但是,在处理鼠标拖动(用于文本选择)时,我感到很困惑。我似乎无法弄清楚如何在拖动(B1-Motion)事件期间禁止鼠标光标移动到音节之间的字符位置。
我
self.editorText.mark_set ("my_index", "@%d,%d" % (event.x, event.y))
用来获取拖动索引,然后使用我的例程寻找音节左侧和外部的第一个字符位置。但这只是行不通。
请参阅下面有关字体渲染问题的图片...
任何帮助表示赞赏!
-PP
c# - 如何在 C# 中将印地语数字 (२०७४) 转换为数值?
我有一大组印地语数字,我想将其转换为数值,但我不知道如何转换它们。请建议我实现这一目标的适当方法。 注意请不要建议我替换方法。
例如。将此数字 २०७४ 转换为 2074。
latex - 如何使用 LaTeX(背页)输入梵文?
我正在尝试使用 Overleaf 在 LaTeX 中输入梵文脚本。但我收到一些格式错误。“matras”没有反映在输出的梵文文本中。
输出如下:
但应该是
laravel - 如何在 dompdf 中编写梵文脚本?
我的 html 文件中有梵文脚本。但它显示为?????? 在 .pdf 文件中。如何解决这个问题呢?
这是html代码
我收到此错误:未定义索引:在 \vendor\dompdf\dompdf\lib\Cpdf.php
perl - Pango:在梵文字符串中查找位置
我正在使用 Pango 排版梵文。考虑由 DEVANAGARI LETTER U、DEVANAGARI LETTER MA、DEVANAGARI SIGN VIRAMA、DEVANAGARI LETTER KA、DEVANAGARI LETTER NA、DEVANAGARI SIGN VIRAMA、DEVANAGARI LETTER CHA、DEVANAGARI VOWEL SIGN AU 组成的字符串 उम्कन्छौ。在排版这个字符串时,我想知道छ(CHA)的起始点来放置一个视觉标记。
对于普通字符串,我会取前面部分的长度,उम्कन्,但这在这里不起作用,因为你可以看到 न्(半个 न)与 छ 结合,所以结果略有偏差。
当涉及组合时,有没有办法获得正确的字母起点?
我尝试使用 index_to_pos() 查询 Pango 布局,但这似乎适用于字节级别(而不是字符)。
这个小的 Perl 程序显示了这个问题。垂直线在右侧。
r - 如何解决 R 中的梵文脚本编码错误
我有一个 .csv 文件,保存时它是 UTF-8 编码的。该脚本是该文件中数据的梵文。我可以在 excel 中看到 csv 文件中的单词
但是当我在 R 中打开它时,这些单词没有被正确编码。print() 的输出是这样的:
我该如何解决这个问题?我试过了Sys.setlocale()
,read.delim(wordlist.csv, encoding = "UTF-8")
但都没有奏效。
python - 语法错误:文件“....”中以 \xe0 开头的非 UTF-8 代码,但未声明编码
我一直在尝试将上述映射从拉丁文音译为梵文。我正在使用 VS Code,它向我抛出编码错误“非 UTF-8 代码在文件“....”中以 \xe0 开头,但没有声明编码”。我尝试将 utf-8 编码行放在代码上方,但没有奏效。
谁能解释我为什么会发生这种情况以及我应该怎么做才能纠正它?