问题标签 [word]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
23008 浏览

algorithm - 词比较算法

我正在为我正在处理的项目做一个 CSV 导入工具。客户端需要能够在 excel 中输入数据,将它们导出为 CSV 并将它们上传到数据库。例如,我有这个 CSV 记录:

当然,这些公司保存在一个单独的表中并通过外键链接,所以我需要在插入之前找到正确的公司 ID。我计划通过将数据库中的公司名称与 CSV 中的公司名称进行比较来做到这一点。如果字符串完全相同,则比较应该返回 0,并返回一些随着字符串变得不同而变大的值,但 strcmp 不会在这里剪掉它,因为:

“Acme Company”和“Acme Comapny”应该有非常小的差异指数,但“Acme Company”和“Cmea Mpnyaco”应该有很大的差异指数或者“Acme Company”和“Acme Comp”。即使字符数不同,也应该有一个小的差异索引。此外,“Acme Company”和“Company Acme”应返回 0。

因此,如果客户在输入数据时输入了一个类型,我可以提示他选择他最可能想要插入的名称。

有没有一种已知的算法可以做到这一点,或者我们可以发明一个:)?

0 投票
11 回答
3475 浏览

algorithm - 将无意义文本与有意义文本分离的算法

我为我的一些程序提供了反馈功能。不幸的是,我忘记了包含某种垃圾邮件保护功能——因此用户可以将任何他们想要的东西发送到我的服务器——每个反馈都存储在一个巨大的数据库中。

一开始我会定期检查这些反馈——我过滤掉了可用的内容并删除了垃圾。问题是:我每天收到 900 条反馈。只有 4-5 条真正有用,其他消息大多是 2 种胡言乱语:

  • 废话:jfvgasdjkfahs kdlfjhasdf(人们在键盘上砸脑袋)
  • 我不懂的语言

到目前为止我做了什么:

  1. 我安装了一个过滤器来删除任何包含“asdf”、“qwer”等的反馈...->每天只有 700 个

  2. 我安装了一个单词过滤器来删除任何包含不良语言的内容 -> 每天 600 个(不要问 - 但那里有很多奇怪的人)

  3. 我过滤掉任何包含未以我的语言使用的字母的消息 -> 每天 400 条

但是每天400仍然太多了。所以我想知道是否有人以前处理过这样的问题并且知道某种算法来过滤掉无意义的消息。

任何帮助将不胜感激!

0 投票
1 回答
3994 浏览

c# - Word 自动化找出书签是否在表格中

我正在使用 Word Automation 来操作一些文档(yuk!)。我正在使用此命令在文档中获取书签。

我想知道的是该书签是否在文档的表格中。有没有简单的方法可以做到这一点?

我在 .NET 应用程序中从 C# 调用此代码。

0 投票
4 回答
4852 浏览

c# - 查找严格以 $ 开头的单词,Regex C#

我需要找到严格以“$”开头且仅包含数字的单词的所有匹配项。所以我写了

这给了我 4 场比赛

所以我想到了使用 \b 来使用单词边界:

但它再次匹配

给我20美元。

我试过

但我失败了。

我正在寻找说,仅当单词以 $ 开头并且后跟 DIGITS 时才接受。我如何告诉它以 $ 开头,因为我认为 \b 使它假定单词边界,这意味着包围在字母数字字符内。

解决办法是什么?

0 投票
1 回答
1127 浏览

word - 词建议

重复谷歌你的意思是算法如何工作

有谁知道如何编写像 Google 的“你的意思是”这样的单词建议功能吗?特征?或者知道我在哪里可以找到代码示例。

谢谢

0 投票
6 回答
12273 浏览

c++ - 字长、字符大小、整数大小和字节之间的关系

C++中字长、字符大小、整数大小和字节之间的关系是什么?

0 投票
7 回答
9339 浏览

sql - SQL Server 子字符串在单词而不是字符上中断

我想在搜索结果中显示不超过 n 个文本字段的字符,以便让用户了解内容。但是,我找不到轻松断词的方法,所以我在断词时用了一个部分词。

当我想显示:“这个学生还没有提交他的最后几个作业”时,系统可能会显示:“这个学生没有提交他的最后几个作业”

我希望系统显示到保留单词的 n 个字符限制,所以我想看看:

“这个学生还没有提交他的最后几个”

是否有可以用 T-SQL 编写的最接近的词函数,或者当我将结果返回 ASP 或 .NET 时应该这样做?

0 投票
2 回答
1202 浏览

c# - 当单词出现的顺序或次数不重要时,两个字符串之间的最佳匹配?

当单词出现的顺序或次数不重要时,匹配或计算 C# 中两个字符串之间距离的最佳算法是什么?

最佳手段:

  • 大多同意人类比赛
  • 优雅的
  • 高效的
  • 可扩展,以便输入字符串可以匹配到可能很大的其他字符串集合

相关问题:

一些注意事项:

  • 由于顺序和出现的独立性,输入可以被认为是一组独特的单词,而不是字符数组意义上的字符串
  • 不是专门寻找数据库解决方案,虽然会很有趣
  • 我太老了,不能成为家庭作业问题;)
0 投票
3 回答
4289 浏览

.net - 西班牙语单词的正则表达式是什么?

正则表达式语言使用 \B 来包含 A..Z、a..z、0..9 和 _,而 \b 定义为单词边界。

如何编写一个匹配所有有效西班牙语单词的正则表达式,包括:á、í、ó、é、ñ 等字符?

我正在使用.NET。

0 投票
8 回答
30374 浏览

parsing - 用空格分割 /proc/cmdline 参数

大多数解析 /proc/cmdline 的脚本将其分解为单词,然后使用 case 语句过滤掉参数,例如:

问题是当 WLAN ESSID 有空格时。用户期望设置wlan='FOO BAR'(如 shell 变量)然后'FOO使用上述代码得到意想不到的结果,因为 for 循环在空格上拆分。

有没有更好的方法/proc/cmdline从几乎无法评估它的 shell 脚本中解析它?

还是有一些引用技巧?我在想我也许可以要求用户实体引用空格并像这样解码:/bin/busybox httpd -d "FOO%20BAR". 或者这是一个糟糕的解决方案?