dataset - 常用词构建基本句子的数据集

Question

所以我正在制作一个“冰箱磁铁”互动，我试图找出一个有效的数据集，让用户可以拖动单词。

我正在使用这个数据集.. 但它不是那么好

以及在哪里可以找到一组更有效的单词的想法

score 2 · Accepted Answer

您可以自己执行此操作的一种方法是下载文本语料库，然后运行一个脚本来计算出现的每个单词的数量。然后选择一些值N并将每个计数除以N（向下舍入）。对于每个单词，为每个除数做一个磁铁。您应该根据最后想要多少磁铁来选择N。

这样做的好处是磁铁的分布与单词的分布相匹配。例如，如果“the”出现 1000 次，“man”出现 320 次，“walks”出现 150 次，“skips”出现 2 次，你选择N为 100，那么你最终将制作 10 个“the”磁铁， 3个“人”，1个“走路”，0个“跳过”。

您可能还想采用计数的对数来尝试减少偏斜。由于单词分布是Zipfian，因此您最终可能会为每个“行走”获得数千个“the”磁铁）。

最后，这种方法的好处是您可以在特定域上运行它来为该域创建一个单词磁铁集。例如，如果您想制作听起来像新闻故事的单词磁铁，那么在新闻故事语料库上运行它。如果您想制作听起来像童话故事的文字磁铁，那么请在童话语料库上运行它。

如果你真的想变得花哨，你可以使用TF-IDF之类的东西来挑选最能代表该领域的词，然后将它们与常见的虚词混合。

1 回答 1