“text-processing”的相关标签问题

0 投票

5 回答

2558 浏览

linux - 在 Linux 或 Mac 中进行文本处理的最佳工具是什么？

我通常需要为我的研究做大量的文本处理，例如从所有行中删除最后一个标记，从每行中提取前两个标记，将每一行拆分为标记等。

执行此操作的最佳方法是什么？我应该为此学习 Perl 吗？还是我应该学习某种 shell 命令？主要关心的是速度。如果我需要为这些东西编写长代码，那就达不到目的了。

编辑：

我根据@Mimisbrunnr 的建议开始学习 sed 并且已经可以做我需要做的事情。但似乎人们更青睐awk。所以，会尝试的。感谢您的回复。

linux text-processing

2010-03-15T06:43:56.227

0 投票

3 回答

3458 浏览

algorithm - tf-idf：我理解对了吗？

我对做一些文档聚类很感兴趣，现在我正在考虑为此使用 TF-IDF。

如果我没记错的话，TF-IDF 特别用于评估给定查询的文档的相关性。如果我没有特定查询，如何将 tf-idf 应用于集群？

2010-03-29T07:08:25.060

0 投票

5 回答

1869 浏览

perl - 在 Perl 中将混合的 ISO-8859-1 和 UTF-8 多行字符串强制转换为 UTF-8

考虑以下问题：

多行字符串$junk包含一些以 UTF-8 编码的行和一些以 ISO-8859-1 编码的行。我不知道哪些行在哪些编码中，因此需要启发式。

我想通过$junk对 ISO-8859-1 行进行适当的重新编码变成纯 UTF-8。此外，如果处理过程中出现错误，我想提供“尽力而为的结果”，而不是抛出错误。

我目前的尝试如下所示：

显然，转换永远不会完美，因为我们缺乏关于每行原始编码的信息。但这是我们能得到的“尽力而为的结果”吗？

您将如何改进force_utf8(...)潜艇的启发式/功能？

perl unicode utf-8 character-encoding text-processing

2010-03-31T17:46:27.520

0 投票

4 回答

996 浏览

c# - C# 组合线

大家好，这就是我正在做的事情。我有两个文本文件。嗯，让我们调用一个 A.txt 和 B.txt。

A.txt 是一个包含一堆文件夹名称的配置文件，每个文件夹只有一个列表。

B.txt 是包含文件夹名称和大小的目录列表。但是 B 包含一堆列表，而不仅仅是一个条目。

我需要的是如果 B 包含 A。取 B 中包含 A 的所有行并将其写为 A|B|B|B 等....

所以例子：

A.txt：
苹果
橙
梨 XBSj
HEROE

B.txt：
苹果|3123123
苹果|3434
橙|99999999
橙|1234544
梨|11
梨|12
XBSJ|43949
XBSJ|43933

结果.txt ：
苹果|3123123|3434
橙|99999999|1234544
梨|11|12
XBSJ|43949|43933

这就是我所拥有的，但它并没有真正做我需要的。

我知道它不会找到第一个“如果”，因为它读取了整行并且找不到它。但我仍然相信我的输出文件不会包含我需要的内容。

c#text-processing

user222427

2010-04-07T14:16:43.223

0 投票

3 回答

815 浏览

php - 使用正则表达式从纯文本格式信函中提取变量？

我正在寻找一个在 PHP 中使用正则表达式来“逆向工程”已粘贴到多行文本框并发送到脚本进行处理的套用信函（当然是已知格式）的一个很好的例子。

因此，例如，让我们假设这是原始的纯文本输入（取自 USDA 新闻稿）：

华盛顿，2010 年 4 月 5 日 - North American Bison Co-Op，新罗克福德，ND，正在召回大约 25,000 磅的整头牛头，其中包含可能没有完全切除扁桃体的舌头，这不符合要求美国农业部食品安全与检验局 (FSIS) 今天宣布，从所有年龄的牛身上切除扁桃体。

为清楚起见，作为变量的字段在下面突出显示：

[pr_city=]WASHINGTON，[pr_date=]2010 年 4 月 5 日- [corp_name=]North American Bison Co-Op，[corp_city=]New Rockford， [corp_state=]ND，机构正在召回大约[amount=]25,000 英镑的[product=] 包含可能没有完全切除扁桃体的舌头的整块牛肉头，这不符合要求[reason=] 从所有年龄的牛身上切除扁桃体的规定，美国农业部的食品安全和检验服务 (FSIS) 今天宣布。

我怎样才能有效地提取内容

公关城市
pr_date
公司名称
公司城市
公司状态
数量
产品
原因

我的例子中的字段？

任何帮助将不胜感激，谢谢。

php regex parsing text-processing

2010-04-12T15:45:23.833

0 投票

6 回答

5995 浏览

nlp - 否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试。

例如，给定一个像“这本书很好”这样的句子，提供任意数量的替代句子，意思是相反的，比如“这本书不好”甚至“这本书很糟糕”。

显然，以高精度完成此任务可能超出了当前 NLP 的范围，但我确信已经有一些关于该主题的工作。如果有人知道任何工作，请给我指出一些文件吗？

nlp text-processing linguistics negation

2010-04-13T21:27:07.027

0 投票

2 回答

4247 浏览

java - 从 XML 文件中删除标头的简单方法

我需要从另一个程序生成的文件中删除非 xml 标记。

该文件是这样的：

如何在java中轻松删除非xml文本？

java xml text-processing

2010-04-20T20:12:01.760

0 投票

2 回答

456 浏览

nlp - 有关以下自然语言处理术语的详细信息？

有没有我可以用来执行 NLP 的上述任何功能的库？

真的不想向 AlchemyAPI 支付现金

nlp libraries text-processing

2010-04-21T01:22:26.047

0 投票

2 回答

1275 浏览

nlp - 无趣单词列表

[警告] 这不是直接的编程问题，而是在语言处理中经常出现的问题，我相信它对社区有一些用处。

有没有人有一个很好的无趣（英语）单词列表，这些单词经过了更多的测试，而不是随意的外观？这将包括所有介词，连词等......可能具有语义含义但通常在每个句子中经常出现的单词，无论主题如何。我不时为个人项目建立自己的清单，但它们是临时的；我不断地添加我忘记的单词。

nlp text-processing stop-words

2010-04-24T21:49:13.697

0 投票

2 回答

235 浏览

parsing - 字符和文本处理资源（编码、正则表达式、NLP）

我想学习编码、字符和文本的基础。了解这些对于处理大量文本非常重要，无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识非常基础：比如“只要我使用 UTF-8，我就没事”。

我并不是说我需要立即学习高级主题。但我需要知道：

位和字节级别的编码知识。
英文中未使用的字符和字母。
多字节编码。（我懂一些中文和日文。解析它们很重要。）
常用表达。
文本处理算法。
解析自然语言。

我还需要了解数学和语料库语言学。当前和未来的网络（语义、智能、实时网络）需要处理、解析和分析大文本。

我正在寻找一些资源（也许是书籍？），让我开始了解一些项目符号。（我在 Stack Overflow 上找到了很多关于正则表达式的有用讨论。因此，您无需就该主题提出资源建议。）

parsing text encoding text-processing linguistics

2010-05-01T02:54:28.330

问题标签 [text-processing]

Reference