问题标签 [noise-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2005 - 查询 SQl Server 2005 全文搜索噪音/停用词
是否可以通过查询数据库从 SQL Server 2005 中获取全文搜索噪音/停用词的列表?
我知道干扰词位于文本文件 ~/FTData/noiseEng.txt 中,但我们的应用程序无法访问该文件。
我查看了 sys.fulltext_* 表,但这些似乎没有单词。
sql-server-2008 - sql server 兼容性全文停止列表和干扰词
如果我在兼容级别 90 (sql 2005) 中运行 sql server 2008,它是使用资源数据库中的停止列表还是使用 ftdata\ENU.txt 文件?
另外,如果我在 2008 年制作了自己的停止列表(使用兼容性 100),我可以忽略系统停止列表并在全文查询中使用我自己的停止列表,还是会使用系统和我的自定义停止列表?
我有很多全文索引问题。Web 上处理停止列表的任何好的 sql 资源,多个表包含多个表。大型记录集????
谢谢!
parsing - 噪声数据流上的 ANTLR
我是 ANTLR 世界的新手,我正试图弄清楚如何使用这个解析工具来解释一组“嘈杂”的字符串。我想要实现的是以下。
让我们以这个短语为例:It's 10PM and the Lazy CAT is currently SLEEPING heavily on the SOFA in front of the TV
我想提取的是CAT
,SLEEPING
并且SOFA
有一个与以下模式轻松匹配的语法:SUBJECT - VERB - INDIRECT OBJECT ...我可以在其中定义
VERB : 'SLEEPING' | 'WALKING';
SUBJECT : 'CAT'|'DOG'|'BIRD';
INDIRECT_OBJECT : 'CAR'| 'SOFA';
等。我不想以永久的“NoViableException”结束因为我无法描述语言结构的所有可能性。我只想撕掉无用的词,只保留有趣的词。
更像是如果我有一个标记器并询问解析器“好的,阅读流直到找到一个 SUBJECT,然后忽略其余部分,直到找到一个 VERB 等。”
我需要以无组织的方式提取有组织的结构设置...例如,我希望能够解释(我不判断这种完全基本和不正确的观点的相关性 '
SUBJECT - VERB - INDIRECT OBJECT
INDIRECT OBJECT - SUBJECT - VERB
所以我会解析像
It's 10PM and the Lazy CAT is currently SLEEPING heavily on the SOFA in front of the TV
或这样的句子
It's 10PM and, on the SOFA in front of the TV, the Lazy CAT is currently SLEEPING heavily
antlr - 噪声数据流上的 ANTLR 第 2 部分
在与 Bart Kiers就使用 ANTLR 解析嘈杂的数据流进行了非常有趣的讨论之后,我遇到了另一个问题......
目的还是一样的:只用下面的语法提取有用的信息,
像这样的句子it's 10PM and the Lazy CAT is currently SLEEPING heavily on the SOFA in front of the TV.
将产生以下内容
这是完美的,它正在做我想要的......从一个大句子中,我只提取对我有意义的单词......但是,我发现了以下错误。如果在文中某处我要介绍一个词的开头与记号完全一样,我会以 aMismathedTokenException
或 a结尾noViableException
产生错误:
DOGGY
被解释为开头,DOG
它也是 TOKEN 的一部分SUBJECT
并且词法分析器丢失了......如果不定义为特殊标记,我怎么能避免这种情况DOGGY
......我希望解析器DOGGY
本身理解为一个词。
sql - sys.dm_fts_parser sql全文
我们很难找出两个相似的字符串给 sys.dm_fts_parser 给出不同的结果
似乎认为“0 CAD”是一个令牌(返回 2 个令牌)
返回 3 个令牌 - 正确
更重要,更令人困惑的是为什么
select * from Table where contains(*,"point 5 CAD")
工作和
select * from Table where contains(*,"point 5 cad")
失败
其中搜索的列包含“point 5 CAD”-
全文索引构建器不应该基于索引设置忽略干扰词(例如“5”)还是包含它。
我们都试过了,但无法解释为什么“nnnn CAD”很特别
请注意,根据http://msdn.microsoft.com/en-us/library/ms142583.aspx,全文假定不区分大小写
我错过了什么?
编辑:使用 SQL 2012 11.0.2218
indexing-service - 索引服务中的“噪音词”
谁能告诉我,索引服务中的噪声词到底是什么意思?我正在研究 Windows 服务器索引服务并遇到很多问题。 Some questions on it: Does indexing services not search for noise words? What is the location and name of noise word file on windows server?
谢谢。
sql-server - Sql Server 全文搜索 - 如何从停止列表或噪音列表中删除“for”
在 sql server 我的搜索文本就像
“为了她”
“为了孩子”
但这被搜索忽略了,有没有办法从噪音列表中删除“for”
sql - 如何在全文搜索中处理噪声词 (NN)
我们正在使用全文搜索来检查邮政编码和地址,我们发现NNx
,其中 x 是一个数字,被认为是一个干扰词。我们知道这个问题,但想不出一个干净的解决方案,除了检查搜索词是否包含NN
然后使用LIKE
。
我们正在使用此代码。
有没有人对如何逃避或阻止全文将 NN 视为干扰词有任何想法?
更新:我们添加了一个 if 来检查输入字符串中的 NN,如果 NN 存在,我们只使用 Like 代替,但这对性能有很大影响。从不到一秒到超过 5 秒:/ 有人有更好的解决方案吗?
sql-server - ContainsTable:没有结果的噪音/停用词
假设您有以下查询(使用 PT 语言):
我的印象是à
被认为是停用词,因此之前的查询没有返回任何结果(由于我使用的是 AND)。现在,如果我关闭停用词列表,一切正常,但这看起来不是一个好的选择。
查看文档后,我发现了transform noise words option。我已经在服务器中激活它并重建了目录,但我仍然得到 0 个结果。
顺便说一句,这里的表+插入可能能够重现这种情况:
我错过了什么?
谢谢!
sql - containstable 在搜索时忽略干扰词“of”
我正在使用containstable
. 我正在使用文本“重心”进行搜索,但它不返回结果。如果我只搜索“中心”或“重力”,那么它会返回结果。
怎样才能克服这种情况?