2

我想学习编码、字符和文本的基础。了解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识非常基础:比如“只要我使用 UTF-8,我就没事”。

我并不是说我需要立即学习高级主题。但我需要知道:

  • 位和字节级别的编码知识。
  • 英文中未使用的字符和字母。
  • 多字节编码。(我懂一些中文和日文。解析它们很重要。)
  • 常用表达。
  • 文本处理算法。
  • 解析自然语言。

我还需要了解数学和语料库语言学。当前和未来的网络(语义、智能、实时网络)需要处理、解析和分析大文本。

我正在寻找一些资源(也许是书籍?),让我开始了解一些项目符号。(我在 Stack Overflow 上找到了很多关于正则表达式的有用讨论。因此,您无需就该主题提出资源建议。)

4

2 回答 2

3
  • 除了维基百科,Joel Spolskys关于编码的文章也非常好。
  • This free character map is a nice resource for all unicode characters.
  • This regular expression tutorial can be helpful.
  • Specifically on NLP and Japanese, you could take a look at this Japanese NLP project.
  • On text processing, this Open Source project can be useful.
于 2010-05-01T03:08:40.387 回答
0

与大多数一般的“我想了解 X 主题”问题一样,维基百科是一个很好的起点:

http://en.wikipedia.org/wiki/Character_encoding

http://en.wikipedia.org/wiki/Natural_language_processing

于 2010-05-01T02:56:28.197 回答