问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 阅读电子邮件内容
希望有人可以提供帮助。我要做的是在 c# 中创建一个小型 winform 应用程序来读取来自 pop 帐户的电子邮件内容,并自动将键值上传到 sql。每封电子邮件的电子邮件格式始终相同,例如,
名字 : 姓氏 : 电话号码 : 等等...
目前,电子邮件存储在 pop 3 帐户中,但是我想要一种方法来减少手动将信息键入 sql 的情况。
任何人都可以建议我将如何去做,或者可以推荐一些指南吗?
谢谢。史蒂夫
ruby - 在处理匹配的括号时使用 Ruby 从文本中提取 URL
URI.extract声称这样做,但它不处理匹配的括号:
在不破坏带括号的 URL(用户喜欢使用)的情况下从文本中提取 URL 的最佳方法是什么?
perl - 修复.txt文件中的断线的脚本?
我想在我的 Kindle 上正确阅读书籍。
为了实现我的梦想,我需要一个脚本来修复 txt 文件中的断行。
例如,如果 txt 文件有这一行:
...然后它应该通过删除单词“down”之前的换行符来修复它:
那么,程序员同胞们,(a)最简单的方法和(b)最好的语言是什么?
ps 该解决方案将涉及在第 1 列中搜索一个小写字母,并删除它之前的换行符以将这些行拼接在一起。在我试图修复的小说中,这种“流氓换行”出现了 120 万次。
python - 从文本文件中解析项目
我有一个文本文件,其中包含 {[]} 标签内的数据。解析该数据的建议方法是什么,以便我可以使用标签内的数据?
示例文本文件如下所示:
'这是一堆在任何 {[way]} 中都没有 {[really]} 有用的文本。我需要 {[get]} 一些项目 {[from]} 它。
我想以列表中的“真正”、“方式”、“获取”、“来自”结尾。我想我可以使用 split 来做到这一点.. 但似乎可能有更好的方法。我已经看到了大量的解析库,有没有一个非常适合我想做的事情?
c# - 处理 OCRed 文本
我正在使用库从 OCRed Tiff 文件中提取文本并将其转储到数据库中。我提取的文本实际上是具有 NAME、DOB、COUNTRY 等字段的表单。由于 OCR 没有实际值和标签之间的差异,它只是转储所有文本。现在我在 DB 中有以下格式的文本:
姓名:我的姓名 地址:我的地址
ETC
现在下一步是从数据库中提取值lile MyName和MyAddrss。文档类型可能会有所不同,因此通用解析器可能不起作用。
你会建议如何处理这种情况?我应该编写不同的解析器吗?ANTLR可以帮助我吗?如果是,那怎么办?请指导我。
我正在研究.NET
text-processing - 查找文本中出现频率最高的术语的简单工具
我有一个文本,我想提取最经常出现的术语,即使由多个单词组成(即:董事总经理、职位、薪水、Web 开发人员)。
我需要一个库或可安装的可执行文件,而不是 Web 服务。
我遇到了一些需要培训的复杂工具(例如 Topia 的术语提取、MAUI)。我的目的过于复杂,我发现它们很难被我使用。
我只需要一个软件来提取文本中最常见的术语。
谢谢。
regex - XSLT 2.0 正则表达式问题(在不同匹配项上打开和关闭元素)
我已经稍微简化了这个问题,但我希望我仍然抓住了我的问题的本质。
假设我有以下简单的 XML 文件:
然后我可以使用以下 XSLT 2.0:
将其转换为以下内容:
以下是问题:
多个正则表达式
有没有更好的方法来匹配两个不同的正则表达式,而不是像上面所做的那样将它们嵌套在另一个中?
- 如果它们不容易像这样嵌套怎么办?
- 我可以有 XSL 模板来匹配和转换 regex 匹配
text()
吗?- 在这种情况下,我有两个模板,每个正则表达式一个
- 如果可能,这将是理想的解决方案
正则表达式匹配的打开和关闭元素
显然,而不是:
我最终真正想要的是:
那么你会怎么做呢?我不确定是否甚至可以在一个正则表达式匹配中打开一个元素并在另一个匹配中关闭它(即如果没有匹配更接近怎么办?结果将不是格式良好的 XML!),但它似乎这项任务非常典型,必须有一个惯用的解决方案。
注意:我们可以假设部分不会重叠,因此也不会嵌套。我们还可以假设它们总是成对出现。
附加信息
所以本质上我正在尝试完成 Perl 中简明扼要的事情:
我正在寻找一种在 XSLT 中执行此操作的方法,因为:
- 就正则表达式匹配的上下文而言,它会更加健壮
- (即它应该只转换
text()
节点)
- (即它应该只转换
- 它在匹配各种 XML 实体方面也会更加健壮
programming-languages - 识别代码库中的常用公式
我的公司维护着一种在语法上类似于 Excel 公式语言的特定领域语言。我们正在考虑向该语言添加新的内置函数。一种方法是识别在我们的代码库中重复使用的详细命令。例如,如果我们看到人们总是编写相同的 100 个字符的命令来修剪字符串开头和结尾的空格,这表明我们应该添加一个trim
函数。
在代码库中查看常用子字符串列表将是一个好的开始(尽管有时由于使用了不同的变量名称,常用命令会相差几个字符)。
我知道有完善的算法可以做到这一点,但首先我想看看我是否可以避免重新发明轮子。例如,我知道这个概念是许多压缩算法的基础,那么是否有一个压缩模块可以让我检索频繁子串的字典?任何其他想法将不胜感激。
python - 使用 Python 在运行文本中拆分单词?
我正在编写一段代码,它将从运行文本中提取单词。此文本可以包含文本中可能存在的分隔符,如 \r、\n 等。
我想丢弃所有这些分隔符,只提取完整的单词。我怎样才能用 Python 做到这一点?任何可用于在 python 中处理文本的库?