问题标签 [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
1744 浏览

python - 如何在一行中读取从 A 列到 B 列的所有字符

给定一个包含 10000 行的文件,在 Python 中是否有可能,其中所有文件都具有以下结构:

1、2、xvfrt ert5a fsfs4 df f fdfd56、234

或类似的,读取整个字符串,然后将第 7 列到第 17 列的所有字符(包括空格)存储在另一个字符串中,因此新字符串将是

“xvfrt ert5a”?

非常感谢

0 投票
7 回答
17532 浏览

regex - 如何删除所有不以某些字符开头的行?

我需要找出一个正则表达式来删除所有不以“+”或“-”开头的行。

我想打印一个大差异文件的纸质副本,但它在实际差异之前和之后显示了大约 5 行。

0 投票
4 回答
1780 浏览

php - 获取文件夹中所有文件的字数

我需要查找文件夹中所有文件的字数。

这是我到目前为止提出的代码:

这将计算单个文件中的单词,我将如何计算给定文件夹中所有文件的单词?

0 投票
8 回答
477 浏览

xml - 如何将大文件过滤成两个单独的文件?

我有一个像这样组织的大文件(500 MB):

我想将其转换为一种新格式,其中 s1 转到一个新文件,每个 s1 都在自己的行上,并带有换行符,而 s2 转到一个新文件,每个 s2 在自己的行上。

Perl 是通往这里的路吗?如果是这样,有人可以告诉我如何做到这一点吗?

0 投票
4 回答
702 浏览

text-processing - 通用文本阅读

我正在做一个项目,我需要阅读一些通用文本...我正在寻找任何 api,因为我可以阅读通用文本,也可以将其转换为 .csv 文件...任何人都可以帮助...使用windows操作系统上的java...

- - - - - - - - - - - - - 更多详情 - - - - - - - - - - - -------------------------------------------------- ---------------让我澄清一下:

假设我有一个 pdf 文档或任何文件类型的文档。我打算使用打印到通用文本打印机选项并以该格式获取文件。最后,我打算使用一些 API,它应该使我能够以编程方式读取此通用文本格式文件。我打算从这个通用文本文件中提取文本。

因此,无论是任何文件(.doc/.pdf/.xls 等 wtatever),我都打算使用打印选项创建一个通用文本格式文件。然后运行我的代码来读取这些文件并提取一些信息。

PS:假设我有一个带有标准字段的状态报告表。好的。但是,有些人可能会以 .pdf 格式提交,一些以 .doc 格式提交,一些以文本格式提交。但是,每个文档都包含相同的字段,但可能具有不同的布局。

现在,我正在寻找一个通用的解决方案,通过它我应该能够将每种文件类型转换为通用文本文件格式,然后应用一些逻辑来提取我的状态报告字段。

0 投票
2 回答
92 浏览

artificial-intelligence - 哪个 OSS 可以从文本中提取概要?

是否有可以将文本压缩为概要的 OSS?

我的目标是为科幻小说建立一个编辑器,它可以自动为章节创建概要,或者至少为一个章节提出建议。

0 投票
1 回答
368 浏览

php - ZipArchive() 以树格式输出

使用 PHP,我得到了这个文件列表:

我的意思是它在一个 zip 文件中。

文件列表是:

  • 文档/
  • 文档/INSTALL.html
  • 文档/auth_api.html
  • 文档/corners_right.gif
  • 文档/corners_right.png
  • 文档/复制
  • 文档/corners_left.png
  • 文档/bg_header.gif
  • docs/CHANGELOG.html
  • docs/coding-guidelines.html
  • 文档/hook_system.html
  • 文档/FAQ.html
  • 文档/site_logo.gif
  • 文档/作者
  • 文档/README.html
  • 文档/corners_left.gif
  • 文档/样式表.css
  • 文档/新建文件夹/
  • docs/新建文件夹/新建文本 Document.txt
  • 文档/新建文件夹/新建文件夹/

我需要一种方法来从每个文件路径中删除目录名称并使其成为子类别。

所以输出应该是这样的:

我希望这不是不可能的

0 投票
4 回答
910 浏览

ruby - Ruby:如何有选择地从文本文件中删除换行?

我想编辑以下文本,使每一行都以 Dealer: 开头。这意味着没有换行/换行。对于以 System 开头的行,换行很好。

ruby 中的解决方案是什么样的?谢谢

这位于 .txt 文件中

庄家:还剩 5 秒采取行动
庄家:hitman2714 赢得底池 (9)
庄家:手牌 #1684326626D
庄家:Guitou699 还剩 5 秒
采取行动
庄家:Guit¤u699 已超时
庄家:baj Hasan 还剩 5 秒
采取行动
庄家: baj Hasan 已超时
庄家:hitman2714 还剩 5 秒
采取行动
庄家:hitman2714 已超时
系统:每晚 10,000 美元的保证
将在 20 分钟后开始
庄家:庄家:手牌 #1684326626D
庄家:Perspextive 发布
25 的大盲注

期望的输出:

庄家:还剩 5 秒采取行动
庄家:hitman2714 赢得底池 (9)
庄家:手牌 #1684326626D
庄家:Guitou699 还剩 5 秒采取行动
庄家:Guit¤u699 已超时
庄家:baj Hasan 还剩 5 秒采取行动
庄家: baj Hasan 已超时
庄家:hitman2714 还剩 5 秒采取行动
庄家:hitman2714 已超时
系统:每晚 10,000 美元的保证
将在 20 分钟后开始
庄家:庄家:手牌 #1684326626D
庄家:Perspextive 发布 25 的大盲注

0 投票
2 回答
1911 浏览

algorithm - 从文本中提取关键句子

你知道从文本中提取关键句子的有效方法吗?

我也想知道是否有一些软件实现

非常感谢

0 投票
3 回答
335 浏览

string - 自动标记用户代理字符串以进行统计?

我们在我们的网站上跟踪用户代理字符串。我想对它们做一些统计,看看我们有多少 IE6 用户(所以我们知道我们必须针对什么进行开发),以及我们有多少移动用户。

所以我们有这样的日志条目:

理想情况下,看到所有“有意义的”字符串会非常整洁,这意味着可能字符串长度可能超过一定长度。例如,我可能想查看其中有多少条目FunWebProducts,或.NET CLR,或.NET CLR 1.0.3705-- 但我不想查看有多少条目带有分号。所以我不一定要寻找唯一的字符串,而是所有的字符串,甚至是子集。所以,我想看看 all 的计数Mozilla,知道这包括Mozilla/5.0and的计数Mozilla/4.0。如果有一个嵌套显示,从最短的字符串开始,然后向下工作,那就太好了。也许像

这听起来像是计算机科学作业。这会叫什么?是否存在类似的东西,还是我自己写?