问题标签 [linguistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
5132 浏览

string - 如何确定随机字符串是否听起来像英语?

我有一个基于输入单词列表生成字符串的算法。如何仅分隔听起来像英语单词的字符串?IE。在保留LORD的同时丢弃RDLO

编辑:为了澄清,它们不需要是字典中的实际单词。他们只需要听起来像英语。例如KEAL将被接受。

0 投票
7 回答
1122 浏览

nlp - NLP:构建(小型)语料库,或“从哪里获得大量不太专业的英语文本文件?”

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用 Gutenberg Project 书籍作为工作原型,并希望融入更多现代语言。最近的一个答案间接指向了一个很好的usenet电影评论档案,这是我没有想到的,而且非常好。对于这个特定的程序,技术用户网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢没有太多标记的部分或可下载的研究语料库,或者一些用于查找适当的维基百科文章子集或任何其他想法的启发式方法。

(顺便说一句,我是一个下载的好公民,使用故意缓慢的脚本,对托管此类材料的服务器没有要求,以防你认为将我指向一些巨大的东西存在道德风险。)

更新:用户 S0rin 指出维基百科不要求抓取,而是提供此导出工具。Project Gutenberg 在这里指定了一个策略,最重要的是,尽量不要爬行,但如果您需要:“将您的机器人配置为在请求之间至少等待 2 秒。”

更新 2 维基百科转储是要走的路,感谢指出它们的回答者。我最终从这里使用了英文版本:http: //download.wikimedia.org/enwiki/20090306/,以及大约一半大小的西班牙转储。它们是一些需要清理的工作,但非常值得,并且它们在链接中包含许多有用的数据。


0 投票
8 回答
2140 浏览

encoding - 理论:“词汇编码”

我使用术语“词法编码”是因为我没有更好的词法编码。

与字母相反,单词可以说是交流的基本单位。Unicode 尝试为所有已知字母的每个字母分配一个数值。对一种语言来说是字母,对另一种语言来说是字形。目前,Unicode 5.1 为这些 Glyphs 分配了超过 100,000 个值。在现代英语中使用的大约 180,000 个单词中,据说使用大约 2,000 个单词的词汇,您应该能够进行一般性的交谈。“词汇编码”将对每个单词而不是每个字母进行编码,并将它们封装在一个句子中。

在这个例子中,String 中的每个 Token 都被编码为一个 Integer。这里的编码方案只是简单地根据单词使用的广义统​​计排名分配一个int值,并为问号分配一个常数。

最终,一个单词同时具有拼写和含义。任何“词汇编码”都会保留整个句子的含义和意图,而不是特定于语言的。一个英文句子将被编码为“……语言中立的原子意义元素……”,然后可以将其重构为具有结构化句法形式和语法结构的任何语言。

“词法编码”技术的其他例子是什么?


如果您对单词使用统计数据的来源感兴趣:
http ://www.wordcount.org

0 投票
5 回答
3385 浏览

text - 关于“自动文本摘要器(基于语言)”

我将“自动文本摘要(语言方法)”作为我最后一年的项目。我已经收集了足够多的研究论文并浏览了它们。我仍然不太清楚“如何去做”的事情。基本上我找到了“AUTOMATIC TEXT SummariZER (statistical based)”,发现它比我的项目要容易得多。我的项目指南告诉我不要选择这个(基于统计的)并选择基于语言的。

任何曾经从事过甚至听说过此类项目的人都会知道,总结任何文档仅意味着对每个句子进行评分(通过某种涉及某些特定算法的方法),然后选择得分超过阈值分数的句子。现在这个项目最困难的部分是选择合适的算法进行评分,然后再实施。

我有中等的编程技能,并且想用 JAVA 编写代码(因为在那里我会得到很多 API,从而减少开销)。现在我想知道对于我的项目,我应该使用什么方法和算法。还有如何实现它们。

0 投票
9 回答
553 浏览

forms - 在表单字段标签中使用正确的语言

我希望使用以下句子作为对表单字段的评论。我已经为该字段提出了一个简短的标签。本文旨在更详细地解释该领域:

你来自哪个国家[哪里]。

问题是:那里需要这个“哪里”,可以在那里使用(可选)还是不能在那里使用(错误)。

由于英语不是我的母语,所以有时会出现这些事情。请不要对我太苛刻。

编辑:我对答案和问题的复杂性有些不知所措。是的,我有一个输入字段,我想给它写一个标签。我们都知道诸如“我来自澳大利亚”之类的基本短语——“你来自哪里?”。不能像“你来自的国家”这样的形式转吗?

如果以下是正确的:“我居住的国家?或者,如果不是独立从句而是从句,我可能只把介词放在末尾(术语可能不正确,忘记了):我已经回到我居住的国家

0 投票
5 回答
2745 浏览

language-agnostic - 使用 Lucene 搜索单词的替代形式的最佳实践

我有一个可以使用 Lucene 搜索的网站。我从日志中注意到,用户有时找不到他们正在寻找的内容,因为他们输入了一个单数术语,但网站上只使用了该术语的复数版本。我希望搜索也能找到其他形式的单词的用法。这是一个我确信已经解决了很多次的问题,那么最好的做法是什么?

请注意:本站只有英文内容

我想到的一些方法:

  1. 在某种同义词库文件中查找单词以确定给定单词的替代形式。
    • 一些例子:
      • 搜索“汽车”,还将“汽车”添加到查询中。
      • 搜索“carry”,还将“carries”和“carried”添加到查询中。
      • 搜索“small”,还将“smaller”和“smallest”添加到查询中。
      • 搜索“can”,还将“can't”、“cannot”、“cans”和“canned”添加到查询中。
      • 它应该反向工作(即搜索“carries”应该添加“carry”和“carried”)。
    • 缺点:
      • 除非词典/词库经常更新,否则不适用于许多新的技术词汇。
      • 我不确定搜索词库文件的性能。
  2. 基于一些启发式算法生成替代形式。
    • 一些例子:
      • 如果单词以“s”或“es”或“ed”或“er”或“est”结尾,去掉后缀
      • 如果单词以“ies”或“ied”或“ier”或“iest”结尾,则转换为“y”
      • 如果单词以“y”结尾,则转换为“ies”、“ied”、“ier”和“iest”
      • 尝试在单词中添加“s”、“es”、“er”和“est”。
    • 缺点:
      • 为大多数输入生成大量非单词。
      • 感觉就像一个黑客。
      • 看起来像你可以在 TheDailyWTF.com 上找到的东西。:)
  3. 更复杂的东西?

我正在考虑对前两种方法进行某种组合,但我不确定在哪里可以找到同义词库文件(或者它的名称,因为“同义词库”不太正确,但“词典”也不是)。

0 投票
4 回答
7352 浏览

php - LSA - 潜在语义分析 - 如何在 PHP 中编码?

我想在 PHP 中实现潜在语义分析(LSA),以便找出文本的主题/标签。

这是我认为我必须做的。它是否正确?如何在 PHP 中编写代码?我如何确定选择哪些词?

我不想使用任何外部库。我已经实现了 Singular Value Decomposition (SVD)

  1. 从给定文本中提取所有单词。
  2. 加权单词/短语,例如使用tf–idf。如果加权太复杂,只取出现次数。
  3. 建立一个矩阵:列是数据库中的一些文档(越多越好?),行都是唯一的单词,值是出现次数或权重。
  4. 执行奇异值分解 (SVD)。
  5. 使用矩阵 S (SVD) 中的值进行降维(如何?)。

我希望你能帮助我。非常感谢您!

0 投票
6 回答
1989 浏览

php - 在php中识别时态

我正在寻找一种方法来分析一串文本并找出它是用哪种时态写的,例如:“我要去商店”== 当前,“我买了一辆车”== 过去等。 .

关于我如何做到这一点的任何提示?

0 投票
2 回答
4216 浏览

linguistics - 我应该在 nltk 中使用哪个词干分析器?

我的目标是分析一些语料库(目前是 Twitter)的情感内容。就在今天,我意识到搜索词干比拥有详尽的情感词干列表更有意义。所以我一直在探索 nltk.stem 才意识到有 4 种不同的词干分析器。我想问问 stackoverflow 语言学家 LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer 或 WordNetStemmer 是否最好有一些理由。

0 投票
25 回答
14807 浏览

c# - 如何正确地为单词添加“a”和“an”前缀?

我有一个 .NET 应用程序,给定一个名词,我希望它正确地为该单词添加前缀“a”或“an”。我该怎么做?

在您认为答案是简单地检查第一个字母是否是元音之前,请考虑以下短语:

  • 一个诚实的错误
  • 一辆二手车