问题标签 [wordbreaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
956 浏览

sql-server - 有谁知道全文断词器中是否有德语单词列表?

SQL Server 全文搜索使用特定语言的分词器。

对于德语,这用于打断/拆分单词,包括复合词。但是,似乎并非所有已知的复合词都包含在分词器中。我想知道 Word Breaker 确实知道的单词列表是否可用。

0 投票
2 回答
5492 浏览

php - 单词之间没有空格的语言(例如亚洲)中的分词?

我想让 MySQL 全文搜索与日文和中文文本以及任何其他语言一起工作。问题是这些语言以及可能的其他语言通常在单词之间没有空格。当您必须键入与文本中相同的句子时,搜索就没有用了。

我不能只在每个字符之间留一个空格,因为英语也必须工作。我想用 PHP 或 MySQL 解决这个问题。

我可以配置 MySQL 来识别应该是它们自己的索引单元的字符吗?是否有可以识别这些字符的 PHP 模块,所以我可以在它们周围放置空格作为索引?

更新

部分解决方案:

这使得至少有一些我需要特别对待的字符组成了一个字符类。我可能应该提一下,对索引文本进行调整是可以接受的。

有谁知道我需要在周围插入空格的所有字符范围?

此外,必须有更好的、可移植的方式来表示 PHP 中的这些字符吗?Literal Unicode 中的源代码并不理想;我不会认出所有的字符;它们可能无法在我必须使用的所有机器上渲染。

0 投票
2 回答
122 浏览

javascript - 我可以定义允许哪些字符“打断”一个单词吗?

我在我的 Safari 扩展程序中显示了非常长的 URL。显然,它们不能放在一条线上。目前,分词规则使得大多数 URL 都在两行上:第一行相当短,以?符号结尾,另一行长得离谱,包含所有其余GET参数。

我想让它在&符号上也中断,如果可能的话,不要搞砸复制粘贴。我试图&&\u00ad( + 软连字符) 替换每个,但是在 URL 中确实没有任何&连字符之后看到连字符有点奇怪。&

我以为 CSS3 可以解决这类问题,但我找不到。

欢迎任何建议,只要它适用于 Safari。

0 投票
1 回答
118 浏览

java - 帮助执行此 Java 应用程序

我收到了这个源代码:http ://www.sbbic.org/split.zip在 Apache 2.0 许可证下:http: //www.apache.org/licenses/LICENSE-2.0

它来自作者,没有文档或支持(作者现在没有时间,他正在写一本书)。我对Java的了解非常有限。

有人可以告诉我如何运行应用程序以拆分源中包含的 columns.txt 文件中的单词吗?

我在 TextSegmenter.java 中环顾四周,试图找到应该如何在命令行上调用它,但我没有成功。

如果我调用: java com\whitemagicsoftware\dictionary\TextSegmenter lexicon.csv columns.txt 我得到这个错误:

java.lang.ClassLoader.defineClass1(Native Method) 在 java.lang 的线程“主”java.lang.NoClassDefFoundError: com\whitemagicsoftwar e\dictionary\TextSegmenter(错误名称:com/whitemagicsoftware/dictionary/TextSe gmenter)中的异常。 ClassLoader.defineClass(ClassLoader.java:620) at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:12 4) at java.net.URLClassLoader.defineClass(URLClassLoader.java:260) at java.net.URLClassLoader.access$000 (URLClassLoader.java:56) 在 java.net.URLClassLoader$1.run(URLClassLoader.java:195) 在 java.security.AccessController.doPrivileged(Native Method) 在 java.net.URLClassLoader.findClass(URLClassLoader.java:188)在太阳的 java.lang.ClassLoader.loadClass(ClassLoader.java:306)。misc.Launcher$AppClassLoader.loadClass(Launcher.java:276) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:251) 在 java.lang.ClassLoader.loadClassInternal(ClassLoader.java:319)

我尝试将它放入 .jar 中(同样经验有限,我只压缩了包含手动创建的清单文件的文件),但它无法加载。

我是新手 - 如果这是一个愚蠢的问题,我很抱歉,但我会感谢你的帮助!

该脚本的目的是将连接的单词(例如“addresstype”)分解为单独的单词(例如“address”和“type”)。希望使用这个脚本来打破高棉语的单词,单词之间不使用空格。

谢谢!

0 投票
1 回答
734 浏览

sql-server - 是否有用于匈牙利语的第三方 SQL Server 分词器之类的东西?

我想CONTAINS在全文索引上使用并FORMSOF(...)在匈牙利数据上使用。可能吗?我知道 SQL Server 默认不支持它。

0 投票
5 回答
1150 浏览

java - java 分词器或分词器,适用于不同的语言

我想知道是否有一些基于 Java 的语言实用程序可以帮助执行以下字符串标记化或分词和消除噪音

所以对于一个字符串

预期结果将是一系列单词

和被删除的地方

对于字符串

预期结果将是单词

I, to, the, and 被删除的地方

0 投票
1 回答
501 浏览

c# - 如何在我的独立 C# 程序中使用 Microsoft SQL Server 2005 中的分词器

我正在编写一个程序,它将在 Microsoft SQL Server 2005 上查询全文搜索索引。被索引的数据是大块文本(多行)。

我只需要提取那些包含搜索词的文本行,以便与结果一起显示。

因此,我需要使用 Sql Server 分词器和词干分析器来确定 blob 中的每一行文本是否与搜索字符串匹配,因为我了解 Windows 搜索中的标准分词器和词干分析器使用不同的算法。

我想如果我将两个 dll(infosoft 和 langwrbk)从 SQL Server 安装复制到我正在运行我的程序的机器上,并在它们上运行 regsvr32,它们将安装在注册表中,我将能够使用他们。

没有这样的运气 - 运行 regsvr32 似乎根本不会向注册表添加任何内容!

我有代码可以使用 Windows 附带的分词器和词干分析器来完成这项工作,并且它可以工作,但我担心这些差异(我在这里的其他帖子中看到过抱怨)。

0 投票
1 回答
1104 浏览

sql - SQL2008全文索引搜索没有分词器

我正在尝试使用CONTAINSTwitter 风格的用户名搜索 FTI,例如 @username,但分词器将忽略 @ 符号。有什么方法可以禁用分词器吗?根据研究,有一种方法可以创建自定义分词器 DLL 并安装它并分配它,但这一切似乎有点密集,坦率地说,在我头上。我禁用了停用词,以便不会忽略破折号,但我需要那个 @ 符号。有任何想法吗?

0 投票
3 回答
3216 浏览

sql-server - sql server全文搜索:英文的默认分词器是什么?

在哪里可以找到 sql server 全文搜索中英语的默认分词器列表?

0 投票
2 回答
456 浏览

sql-server - 全文搜索和域名

我偶然发现了在 Microsoft SQL Server 2012 上可能包含域名的列中的全文搜索问题。

包含的表格单元格由术语和example.com添加到全文目录中。后者使搜索域名成为不可能,因为将找到包含该 tld 的任何条目。examplecom

为了防止网址被破坏,您需要做什么?

编辑:示例查询将是:

Test 表只包含两行,包含example.comdifferenturl.com,都作为结果返回。测试数据库是为本示例创建的。