我有几个应用程序通过应用像 MD5 这样的加密散列来创建唯一的(很有可能)人类可读的校验和或数字签名,然后使用带有算术编码器的结果位从列表中选择单词。我一直在使用/usr/share/dict/words
,但最近一个客户(正确地)抱怨收到了一份文档,其校验和包含冒犯性的词或触发词。(更多详细信息见我对生成用户友好代码的回答)。
对于这个应用程序,长列表很重要,因为它们可以避免重复——我使用的列表有数万个单词。
有谁知道如何从这样的列表中删除冒犯性和触发词,或者在哪里可以找到无害词列表?
我有几个应用程序通过应用像 MD5 这样的加密散列来创建唯一的(很有可能)人类可读的校验和或数字签名,然后使用带有算术编码器的结果位从列表中选择单词。我一直在使用/usr/share/dict/words
,但最近一个客户(正确地)抱怨收到了一份文档,其校验和包含冒犯性的词或触发词。(更多详细信息见我对生成用户友好代码的回答)。
对于这个应用程序,长列表很重要,因为它们可以避免重复——我使用的列表有数万个单词。
有谁知道如何从这样的列表中删除冒犯性和触发词,或者在哪里可以找到无害词列表?
一种可能性是启用单词列表,由 Words with Friends 和其他一些游戏使用。他们尽量避免有争议的词(选择你最喜欢的词,你不会在那里找到它们!-)它属于公共领域,所以你可以在这里和那里找到它。它大约有 172,000 字。这是我找到的一个地方:http: //www.greenworm.net/sites/default/files/gw-assets/enable1-wwf-v4.0-wordlist.txt
此外,Scrabble 有不同的列表 - 拥有该游戏的公司拥有“过滤”列表,而俱乐部使用未过滤列表进行比赛。我不想发布指向攻击性材料的链接,但如果您在 Google 上搜索“seattle scrabble club expurgated words”,您可能会找到从顽皮列表中删除的单词列表以生成不错的列表。如果您在该列表中找到您抱怨的所有单词,您可以将其用作过滤器。