问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 自然语言处理/文本结构分析起点
我需要解析和处理一大组半结构化文本(基本上是法律文件 - 法律文本、它们的附录、条约、法官的决定……)。我正在尝试做的最基本的事情是提取有关子部分结构的信息——章节、文章、副标题……以及一些元数据。我的问题是,是否有人可以指出这种类型的文本处理的起点,因为我确信对此进行了大量研究,但我发现主要是在解析具有严格语法的内容(如代码)或完全自由格式的文本(就像谷歌试图在网页上做的那样)。我想如果我掌握了正确的关键词,我会在 google 和我的期刊数据库中取得更大的成功。谢谢。
linux - 使用 awk 处理每个记录具有不同固定宽度字段的文件
我有一些来自遗留系统的数据文件,我想使用 Awk 进行处理。每个文件都包含一个记录列表。有几种不同的记录类型,每种记录类型都有一组不同的固定宽度字段(没有字段分隔符)。记录的前两个字符表示类型,从中您可以知道应该遵循哪些字段。一个文件可能看起来像这样:
使用 Gawk 我可以设置FIELDWIDTHS,但这适用于整个文件(除非我错过了逐个记录设置的方法),或者我可以将 FS 设置为 "" 并处理文件一个字符一次,但那有点麻烦。
有没有一种使用 Awk 从此类文件中提取字段的好方法?
编辑:是的,我可以使用 Perl(或其他东西)。不过,我仍然很想知道是否有一种明智的方式来使用 Awk。
vim - 如何计算单词在文件或某个范围内出现的次数
有时我想看看某个函数在文件或代码块中被调用了多少次。你是怎样做的?我正在使用 Vim 7.2。
我想你必须使用!wc
或类似的东西。
perl - 如何删除除换行符以外的所有非单词字符?
我有一个这样的文件:
我想“规范化”它并删除所有非单词字符。我想结束这样的事情:
我现在在命令行上使用 Linux,我希望有一些我可以使用的单行。
我试过这个:
但这删除了所有换行符并将所有内容放在一行中。有什么办法可以告诉 Perl 不要在\W
? 还是有其他方法?
xml - 使用程序而不是 Perl 进行文本处理
我有一个看起来像这样的 .plist 文件:
我想向 plist 添加更多信息,例如座右铭和昵称。它们采用以下格式:
我正在考虑进行一些搜索和替换以添加更多信息。我还可以编写一个 perl 脚本来读取昵称并将它们添加到 plist 中。
但是,是否有一个文本处理程序可以让我遍历这些值并将它们插入到正确的位置?我一直在搜索文本处理器/编辑器,但找不到我要找的东西。
algorithm - 根据关键字组对文本进行分类?
我有一个软件项目的需求列表,它是从其前身的剩余部分组装而成的。每个需求都应映射到一个或多个类别。每个类别由一组关键字组成。我想要做的是找到一种算法,它会给我一个分数排名,每个需求可能属于哪个类别。结果将用作进一步分类需求的起点。
例如,假设我有以下要求:
系统应将存款应用到客户的指定账户。
和类别/关键字:
- 客户交易:存款、存款、客户、账户、账户
- 余额账户:账户、账户、借方、贷方
- 其他类别: foo, bar
我希望算法在第 1 类中得分最高,在第 2 类中得分较低,在第 3 类中完全不得分。评分机制与我几乎无关,但需要传达第 1 类比第 2 类更可能适用.
我是 NLP 的新手,所以我有点不知所措。我一直在阅读Python 中的自然语言处理,并希望应用其中的一些概念,但还没有看到任何适合的东西。我不认为简单的频率分布会起作用,因为我正在处理的文本非常小(一个句子。)
python - Put bar at the end of every line that includes foo
I have a list with a large number of lines, each taking the subject-verb-object form, eg:
To plot a network graph that expresses the different relationships between the nodes in directed color-coded edges, I will need to replace the verb with an arrow and place a color code at the end of each line, thus, somewhat simplified:
There's only a small number of verbs, so replacing them with an arrow is just a matter of a few search and replace commands. Before doing that, however, I will need to put a color code at the end of every line that corresponds to the line's verb. I'd like to do this using Python.
These are my baby steps in programming, so please be explicit and include the code that reads in the text file.
Thanks for your help!
algorithm - 如何从很多页面中获取相似的文本?
从很多文本中获取x个最相似的文本到一个文本。
也许将页面更改为文本会更好。
您不应该将文本与每个文本进行比较,因为它太慢了。
linux - 通过 grep 删除文本文件中的空行
FILE
:
如何删除此中的所有空新行FILE
?
命令输出:
FILE
:
algorithm - 从文本中检测短语和关键字的算法
我有大约 100 兆字节的文本,没有任何标记,分为大约 10,000 个条目。我想自动生成一个“标签”列表。问题是有些词组(即短语)只有在组合在一起时才有意义。
如果我只计算单词,我会得到大量非常常见的单词(is、the、for、in、am 等)。我已经计算了它之前和之后的单词和其他单词的数量,但现在我真的不知道下一步该怎么做 存在与 2 和 3 单词短语相关的信息,但我如何提取这些数据?