问题标签 [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
11580 浏览

java - Java文本分类问题

我有一组 Books 对象,类Book定义如下:

其中title是书名,例如:Javascript for dummies

taglist是我们示例的标签列表:Javascript 、jquery、“web dev”、..

正如我所说,有一套书谈论不同的事情:IT、生物学、历史……每本书都有一个标题和一组描述它的标签。

我必须按主题将这些书自动分类为单独的集合,例如:

它的书:

  • 傻瓜Java
  • 傻瓜的Javascript
  • 在 30 天内学​​习 Flash
  • C++ 编程

历史书籍:

  • 世界大战
  • 1960年的美国
  • 马丁路德金生平

生物学书籍:

  • ……

你们知道适用于这类问题的分类算法/方法吗?

一种解决方案是使用外部 API 来定义文本的类别,但这里的问题是书籍使用不同的语言:法语、西班牙语、英语..

0 投票
1 回答
3173 浏览

statistics - 给定一个文档,选择一个相关的片段

当我在这里提出问题时,自动搜索返回的问题的工具提示给出了问题的前一小部分,但是其中相当一部分没有给出比标题。有没有人知道如何制作过滤器以剔除无用的问题?

我的第一个想法是修剪任何仅包含某些列表中的单词的前导句子(例如,停用词,加上标题中的单词,加上与标签相关性非常弱的 SO 语料库中的单词,即同样可能无论标签如何,都会出现在任何问题中)

0 投票
5 回答
3040 浏览

python - 使用 Python 去除和替换高 unicode 字符文档的最快方法是什么?

我正在寻找从大型文档中替换所有高 unicode 字符,例如重音 Es、左右引号等,以及低范围内的“正常”对应物,例如常规的“E”和直引号。我需要经常在一个非常大的文档上执行此操作。我在这里看到了一个我认为可能是 perl 的例子:http: //www.designmeme.com/mtplugins/lowdown.txt

在 Python 中是否有不使用 s.replace(...).replace(...).replace(...)... 的快速方法?我已经在几个字符上尝试了这个来替换,并且文档剥离变得非常慢。

编辑,我的 unutbu 代码版本似乎不起作用:

0 投票
7 回答
3678 浏览

bash - Bash:有什么命令可以替换文本文件中的字符串?

我有一个包含许多文本文件的目录层次结构。我想每次出现在一个文件中时搜索一个特定的文本字符串,然后用另一个字符串替换它。例如,我可能想用“Pepsi”替换字符串“Coke”的每次出现。有谁知道如何做到这一点?我想知道是否有某种 Bash 命令可以做到这一点,而不必在编辑器中加载所有这些文件,或者想出一个更复杂的脚本来做到这一点。

我发现这个页面解释了一个使用 sed 的技巧,但它似乎不适用于子目录中的文件。

0 投票
3 回答
257 浏览

python - 从文本文件中提取数据的问题

我是 python 新手,我想从这种格式中提取数据

到这种格式

我已经编写了代码,希望它可以工作,但它不起作用,请帮助!

hmmtext 文件是

0 投票
4 回答
1959 浏览

regex - 用于查找未终止字符串的正则表达式

我需要在 CSV 文件中搜索以未终止的双引号字符串结尾的行。

例如:

会匹配而

不会。

我对正则表达式的经验非常有限,我唯一能想到的就是

但是,这与行尾的最后一个引号相匹配。

这将如何完成?

0 投票
2 回答
1422 浏览

bash - 内联 LaTeX \input 命令

我正在寻找一个程序来递归内联\input{}LaTeX 文件中的所有命令。通过“递归”,我的意思是迭代地进行内联,直到\input{}最终的 LaTeX 文件中没有任何命令。

我已经遇到过flatten包。但是,出于某种原因,我的 TeXLive 发行版没有安装它。当我执行命令sudo tlmgr show flatten时,我收到错误消息:tlmgr: cannot find flatten. 因此,我正在寻找更标准且更易于安装的替代工具。

0 投票
1 回答
198 浏览

algorithm - 是否有任何众所周知的算法来检测名称的存在?

例如,给定一个字符串:

“鲍勃和他的朋友吉姆史密斯去钓鱼了。”

Bob 和 Jim Smith 都是名字,但 bob 和 smith 都是单词。如果它们不是大写的,那么在我们对句子的了解之外,这方面的指示会更少。是否有任何众所周知的算法来检测名字的存在,至少是西方名字?

0 投票
2 回答
79 浏览

csv - 从具有大量空白的源中提取数据

我正在尝试从中提取数据:http ://www.phillysheriff.com/old_site/properties.html

理想情况下,我可以得到一个包含地址、病房、价格和平方英尺的 CSV 文件?是否有捷径可寻?

0 投票
2 回答
669 浏览

c - 请推荐一个好的文本处理项目

最近我意识到一个人必须擅长处理(解析)文本。它可能从解释 HTTP 响应或读取设置文件(*.ini 或 *.xml 或 *.json)到编写编译器或正则表达式引擎一样困难。

我同意现在我们有用于解释流行文本格式的库函数/方法。但是使用函数让我觉得缺少了一些东西。我不知道我错过了什么,但我肯定会因为对所有事情都使用函数而失去信心。

为了建立一些信心,我想尝试在 C 中进行一些文本处理。

任何人都可以建议一些中等水平但很好的项目吗?如果您能建议一些更复杂的有用项目,我们也将不胜感激。