问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 在 Linux 或 Mac 中进行文本处理的最佳工具是什么?
我通常需要为我的研究做大量的文本处理,例如从所有行中删除最后一个标记,从每行中提取前两个标记,将每一行拆分为标记等。
执行此操作的最佳方法是什么?我应该为此学习 Perl 吗?还是我应该学习某种 shell 命令?主要关心的是速度。如果我需要为这些东西编写长代码,那就达不到目的了。
编辑:
我根据@Mimisbrunnr 的建议开始学习 sed 并且已经可以做我需要做的事情。但似乎人们更青睐awk。所以,会尝试的。感谢您的回复。
algorithm - tf-idf:我理解对了吗?
我对做一些文档聚类很感兴趣,现在我正在考虑为此使用 TF-IDF。
如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定查询,如何将 tf-idf 应用于集群?
perl - 在 Perl 中将混合的 ISO-8859-1 和 UTF-8 多行字符串强制转换为 UTF-8
考虑以下问题:
多行字符串$junk
包含一些以 UTF-8 编码的行和一些以 ISO-8859-1 编码的行。我不知道哪些行在哪些编码中,因此需要启发式。
我想通过$junk
对 ISO-8859-1 行进行适当的重新编码变成纯 UTF-8。此外,如果处理过程中出现错误,我想提供“尽力而为的结果”,而不是抛出错误。
我目前的尝试如下所示:
显然,转换永远不会完美,因为我们缺乏关于每行原始编码的信息。但这是我们能得到的“尽力而为的结果”吗?
您将如何改进force_utf8(...)
潜艇的启发式/功能?
c# - C# 组合线
大家好,这就是我正在做的事情。我有两个文本文件。嗯,让我们调用一个 A.txt 和 B.txt。
A.txt 是一个包含一堆文件夹名称的配置文件,每个文件夹只有一个列表。
B.txt 是包含文件夹名称和大小的目录列表。但是 B 包含一堆列表,而不仅仅是一个条目。
我需要的是如果 B 包含 A。取 B 中包含 A 的所有行并将其写为 A|B|B|B 等....
所以例子:
A.txt:
苹果
橙
梨 XBSj
HEROE
B.txt:
苹果|3123123
苹果|3434
橙|99999999
橙|1234544
梨|11
梨|12
XBSJ|43949
XBSJ|43933
结果.txt :
苹果|3123123|3434
橙|99999999|1234544
梨|11|12
XBSJ|43949|43933
这就是我所拥有的,但它并没有真正做我需要的。
我知道它不会找到第一个“如果”,因为它读取了整行并且找不到它。但我仍然相信我的输出文件不会包含我需要的内容。
php - 使用正则表达式从纯文本格式信函中提取变量?
我正在寻找一个在 PHP 中使用正则表达式来“逆向工程”已粘贴到多行文本框并发送到脚本进行处理的套用信函(当然是已知格式)的一个很好的例子。
因此,例如,让我们假设这是原始的纯文本输入(取自 USDA 新闻稿):
华盛顿,2010 年 4 月 5 日 - North American Bison Co-Op,新罗克福德,ND,正在召回大约 25,000 磅的整头牛头,其中包含可能没有完全切除扁桃体的舌头,这不符合要求美国农业部食品安全与检验局 (FSIS) 今天宣布,从所有年龄的牛身上切除扁桃体。
为清楚起见,作为变量的字段在下面突出显示:
[pr_city=]WASHINGTON,[pr_date=]2010 年 4 月 5 日- [corp_name=]North American Bison Co-Op,[corp_city=]New Rockford, [corp_state=]ND,机构正在召回大约[amount=]25,000 英镑的[product=] 包含可能没有完全切除扁桃体的舌头的整块牛肉头,这不符合要求[reason=] 从所有年龄的牛身上切除扁桃体的规定,美国农业部的食品安全和检验服务 (FSIS) 今天宣布。
我怎样才能有效地提取内容
- 公关城市
- pr_date
- 公司名称
- 公司城市
- 公司状态
- 数量
- 产品
- 原因
我的例子中的字段?
任何帮助将不胜感激,谢谢。
nlp - 否定句子的算法
我想知道是否有人熟悉算法句子否定的任何尝试。
例如,给定一个像“这本书很好”这样的句子,提供任意数量的替代句子,意思是相反的,比如“这本书不好”甚至“这本书很糟糕”。
显然,以高精度完成此任务可能超出了当前 NLP 的范围,但我确信已经有一些关于该主题的工作。如果有人知道任何工作,请给我指出一些文件吗?
java - 从 XML 文件中删除标头的简单方法
我需要从另一个程序生成的文件中删除非 xml 标记。
该文件是这样的:
如何在java中轻松删除非xml文本?
nlp - 有关以下自然语言处理术语的详细信息?
有没有我可以用来执行 NLP 的上述任何功能的库?
真的不想向 AlchemyAPI 支付现金
nlp - 无趣单词列表
[警告] 这不是直接的编程问题,而是在语言处理中经常出现的问题,我相信它对社区有一些用处。
有没有人有一个很好的无趣(英语)单词列表,这些单词经过了更多的测试,而不是随意的外观?这将包括所有介词,连词等......可能具有语义含义但通常在每个句子中经常出现的单词,无论主题如何。我不时为个人项目建立自己的清单,但它们是临时的;我不断地添加我忘记的单词。
parsing - 字符和文本处理资源(编码、正则表达式、NLP)
我想学习编码、字符和文本的基础。了解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识非常基础:比如“只要我使用 UTF-8,我就没事”。
我并不是说我需要立即学习高级主题。但我需要知道:
- 位和字节级别的编码知识。
- 英文中未使用的字符和字母。
- 多字节编码。(我懂一些中文和日文。解析它们很重要。)
- 常用表达。
- 文本处理算法。
- 解析自然语言。
我还需要了解数学和语料库语言学。当前和未来的网络(语义、智能、实时网络)需要处理、解析和分析大文本。
我正在寻找一些资源(也许是书籍?),让我开始了解一些项目符号。(我在 Stack Overflow 上找到了很多关于正则表达式的有用讨论。因此,您无需就该主题提出资源建议。)