我想学习编码、字符和文本的基础。了解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识非常基础:比如“只要我使用 UTF-8,我就没事”。
我并不是说我需要立即学习高级主题。但我需要知道:
- 位和字节级别的编码知识。
- 英文中未使用的字符和字母。
- 多字节编码。(我懂一些中文和日文。解析它们很重要。)
- 常用表达。
- 文本处理算法。
- 解析自然语言。
我还需要了解数学和语料库语言学。当前和未来的网络(语义、智能、实时网络)需要处理、解析和分析大文本。
我正在寻找一些资源(也许是书籍?),让我开始了解一些项目符号。(我在 Stack Overflow 上找到了很多关于正则表达式的有用讨论。因此,您无需就该主题提出资源建议。)