问题标签 [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
2558 浏览

linux - 在 Linux 或 Mac 中进行文本处理的最佳工具是什么?

我通常需要为我的研究做大量的文本处理,例如从所有行中删除最后一个标记,从每行中提取前两个标记,将每一行拆分为标记等。

执行此操作的最佳方法是什么?我应该为此学习 Perl 吗?还是我应该学习某种 shell 命令?主要关心的是速度。如果我需要为这些东西编写长代码,那就达不到目的了。

编辑:

我根据@Mimisbrunnr 的建议开始学习 sed 并且已经可以做我需要做的事情。但似乎人们更青睐awk。所以,会尝试的。感谢您的回复。

0 投票
3 回答
3458 浏览

algorithm - tf-idf:我理解对了吗?

我对做一些文档聚类很感兴趣,现在我正在考虑为此使用 TF-IDF。

如果我没记错的话,TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定查询,如何将 tf-idf 应用于集群?

0 投票
5 回答
1869 浏览

perl - 在 Perl 中将混合的 ISO-8859-1 和 UTF-8 多行字符串强制转换为 UTF-8

考虑以下问题:

多行字符串$junk包含一些以 UTF-8 编码的行和一些以 ISO-8859-1 编码的行。我不知道哪些行在哪些编码中,因此需要启发式。

我想通过$junk对 ISO-8859-1 行进行适当的重新编码变成纯 UTF-8。此外,如果处理过程中出现错误,我想提供“尽力而为的结果”,而不是抛出错误。

我目前的尝试如下所示:

显然,转换永远不会完美,因为我们缺乏关于每行原始编码的信息。但这是我们能得到的“尽力而为的结果”吗?

您将如何改进force_utf8(...)潜艇的启发式/功能?

0 投票
4 回答
996 浏览

c# - C# 组合线

大家好,这就是我正在做的事情。我有两个文本文件。嗯,让我们调用一个 A.txt 和 B.txt。

A.txt 是一个包含一堆文件夹名称的配置文件,每个文件夹只有一个列表。

B.txt 是包含文件夹名称和大小的目录列表。但是 B 包含一堆列表,而不仅仅是一个条目。

我需要的是如果 B 包含 A。取 B 中包含 A 的所有行并将其写为 A|B|B|B 等....

所以例子:

A.txt:
苹果

梨 XBSj
HEROE

B.txt:
苹果|3123123
苹果|3434
橙|99999999
橙|1234544
梨|11
梨|12
XBSJ|43949
XBSJ|43933

结果.txt :
苹果|3123123|3434
橙|99999999|1234544
梨|11|12
XBSJ|43949|43933

这就是我所拥有的,但它并没有真正做我需要的。

我知道它不会找到第一个“如果”,因为它读取了整行并且找不到它。但我仍然相信我的输出文件不会包含我需要的内容。

0 投票
3 回答
815 浏览

php - 使用正则表达式从纯文本格式信函中提取变量?

我正在寻找一个在 PHP 中使用正则表达式来“逆向工程”已粘贴到多行文本框并发送到脚本进行处理的套用信函(当然是已知格式)的一个很好的例子。

因此,例如,让我们假设这是原始的纯文本输入(取自 USDA 新闻稿):

华盛顿,2010 年 4 月 5 日 - North American Bison Co-Op,新罗克福德,ND,正在召回大约 25,000 磅的整头牛头,其中包含可能没有完全切除扁桃体的舌头,这不符合要求美国农业部食品安全与检验局 (FSIS) 今天宣布,从所有年龄的牛身上切除扁桃体。

为清楚起见,作为变量的字段在下面突出显示:

[pr_city=]WASHINGTON[pr_date=]2010 年 4 月 5 日- [corp_name=]North American Bison Co-Op[corp_city=]New Rockford[corp_state=]ND,机构正在召回大约[amount=]25,000 英镑[product=] 包含可能没有完全切除扁桃体的舌头的整块牛肉头,这不符合要求[reason=] 从所有年龄的牛身上切除扁桃体的规定,美国农业部的食品安全和检验服务 (FSIS) 今天宣布。

我怎样才能有效地提取内容

  • 公关城市
  • pr_date
  • 公司名称
  • 公司城市
  • 公司状态
  • 数量
  • 产品
  • 原因

我的例子中的字段?

任何帮助将不胜感激,谢谢。

0 投票
6 回答
5995 浏览

nlp - 否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试。

例如,给定一个像“这本书很好”这样的句子,提供任意数量的替代句子,意思是相反的,比如“这本书不好”甚至“这本书很糟糕”。

显然,以高精度完成此任务可能超出了当前 NLP 的范围,但我确信已经有一些关于该主题的工作。如果有人知道任何工作,请给我指出一些文件吗?

0 投票
2 回答
4247 浏览

java - 从 XML 文件中删除标头的简单方法

我需要从另一个程序生成的文件中删除非 xml 标记。

该文件是这样的:

如何在java中轻松删除非xml文本?

0 投票
2 回答
456 浏览

nlp - 有关以下自然语言处理术语的详细信息?

有没有我可以用来执行 NLP 的上述任何功能的库?

真的不想向 AlchemyAPI 支付现金

0 投票
2 回答
1275 浏览

nlp - 无趣单词列表

[警告] 这不是直接的编程问题,而是在语言处理中经常出现的问题,我相信它对社区有一些用处。

有没有人有一个很好的无趣(英语)单词列表,这些单词经过了更多的测试,而不是随意的外观?这将包括所有介词,连词等......可能具有语义含义但通常在每个句子中经常出现的单词,无论主题如何。我不时为个人项目建立自己的清单,但它们是临时的;我不断地添加我忘记的单词。

0 投票
2 回答
235 浏览

parsing - 字符和文本处理资源(编码、正则表达式、NLP)

我想学习编码、字符和文本的基础。了解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识非常基础:比如“只要我使用 UTF-8,我就没事”。

我并不是说我需要立即学习高级主题。但我需要知道:

  • 位和字节级别的编码知识。
  • 英文中未使用的字符和字母。
  • 多字节编码。(我懂一些中文和日文。解析它们很重要。)
  • 常用表达。
  • 文本处理算法。
  • 解析自然语言。

我还需要了解数学和语料库语言学。当前和未来的网络(语义、智能、实时网络)需要处理、解析和分析大文本。

我正在寻找一些资源(也许是书籍?),让我开始了解一些项目符号。(我在 Stack Overflow 上找到了很多关于正则表达式的有用讨论。因此,您无需就该主题提出资源建议。)