问题标签 [wordbreaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
608 浏览

pdf-generation - 如何在 ReportLab 中使用断词?

我使用 MWLIB 和 ReportLab 将 MediaWiki 文章转换为 PDF。

我得到了这个非常长的链接,无论出于何种原因,都会导致上面的句子在单词之间有很长的空格。我认为这个链接的词很长,以至于它只是引出了上面的句子。

在此处查看图片:http: //imageshack.us/photo/my-images/543/tzfo.png/

无论如何,在 ReportLab 中是否强制对长于特定字符集的单词进行断词?我认为那会解决它。

附言; 这是一些代码:

reportlab/paragraph.py 中的方法 def breakLinesCJK()。它使用来自 reportlab.lib.textsplit.py 的方法 wordSplit()

textplit.py 中的代码也很重要,但复制太多了,但就像段落一样,任何拥有 reportlab 的人都应该拥有这个文件。

0 投票
1 回答
138 浏览

wordbreaker - 忽视 ”。” 作为 Sql Server 2008 中的分词器

有没有办法忽略。作为 SQL Server 2008 中全文的分词器。这样做的主要目的是我希望能够在全文搜索中搜索 IP 地址。

0 投票
1 回答
224 浏览

windows - 使用 DirectWrite 确定字边界

DirectWrite 通过 IDWriteTextAnalysisSink::SetLineBreakpoints() 提供换行信息。但是,我还需要根据Unicode Annex #29: Unicode Text Segmentation确定单词边界。

有没有办法使用 DirectWrite 做到这一点?如果没有,有哪些替代方案可以与 Windows 桌面中的 DirectWrite 文本布局系统以及 WinRT 一起使用?

0 投票
1 回答
2250 浏览

sql-server - 全文搜索 - 包含加通配符和单引号

我有一个带有名称字段的表

如果我使用

它工作正常,但如果我使用通配符*,我不会得到任何结果。

为什么是这样 ?我正在为我的搜索词使用解析器,这是添加通配符*

我检查了一些网站,关于转义,'但我没有找到任何提到这个的..

提前致谢

0 投票
1 回答
153 浏览

java - Java中的分词

我想在下一个单词之间没有空格的句子。

例子 :

我想按如下方式打印字符串:

我主要关心的是专有名词的出现

0 投票
0 回答
87 浏览

sql - 多语言列上的全文搜索和词干提取

我有一个表,其中有一列包含不同语言的数据,如下所示:

我需要对这个多语言列进行全文搜索,但众所周知,FTS 要求一列使用一种语言。

微软教程说您可以将数据转换为 XML 并定义语言属性,例如

但是,这仅适用于分词器,不适用于词干,并且不会执行类似的查询结果{name, names}

是否有可能做一些事情来使词干工作?

0 投票
1 回答
118 浏览

sql-server - SQL Server Word Breaker 版本之间的差异(全文搜索)

我有两个不同的环境,一个 LIVE 和一个 STAGING 环境。

这些正在运行 SQL Server 2016 网络版,但 SQL 主机本身的版本和一些全文组件(即分词器 (MsWb7.dll))的版本略有不同

我使用以下方法获取断词器版本:

我习惯使用sys.dm_fts_parser下划线来打断单词:

WHERE1033是英语的 LCID。

以下是现场直播的结果:

分期结果:

我看不到如何控制分词器使用哪些字符,这似乎是硬编码的,这表明升级分词器组件是前进的方向,但我找不到任何有关如何做到这一点的信息。

还有其他人经历过这个吗?