问题标签 [text-processing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1829 问题

0 投票

4 回答

11580 浏览

java - Java文本分类问题

我有一组 Books 对象，类Book定义如下：

其中title是书名，例如：Javascript for dummies。

taglist是我们示例的标签列表：Javascript 、jquery、“web dev”、..

正如我所说，有一套书谈论不同的事情：IT、生物学、历史……每本书都有一个标题和一组描述它的标签。

我必须按主题将这些书自动分类为单独的集合，例如：

它的书：

傻瓜Java
傻瓜的Javascript
在 30 天内学习 Flash
C++ 编程

历史书籍：

世界大战
1960年的美国
马丁路德金生平

生物学书籍：

……

你们知道适用于这类问题的分类算法/方法吗？

一种解决方案是使用外部 API 来定义文本的类别，但这里的问题是书籍使用不同的语言：法语、西班牙语、英语..

2010-05-12T18:16:29.227

0 投票

1 回答

3173 浏览

statistics - 给定一个文档，选择一个相关的片段

当我在这里提出问题时，自动搜索返回的问题的工具提示给出了问题的前一小部分，但是其中相当一部分没有给出比标题。有没有人知道如何制作过滤器以剔除无用的问题？

我的第一个想法是修剪任何仅包含某些列表中的单词的前导句子（例如，停用词，加上标题中的单词，加上与标签相关性非常弱的 SO 语料库中的单词，即同样可能无论标签如何，都会出现在任何问题中）

statistics nlp text-processing heuristics

2010-05-13T18:30:20.427

0 投票

5 回答

3040 浏览

python - 使用 Python 去除和替换高 unicode 字符文档的最快方法是什么？

我正在寻找从大型文档中替换所有高 unicode 字符，例如重音 Es、左右引号等，以及低范围内的“正常”对应物，例如常规的“E”和直引号。我需要经常在一个非常大的文档上执行此操作。我在这里看到了一个我认为可能是 perl 的例子：http: //www.designmeme.com/mtplugins/lowdown.txt

在 Python 中是否有不使用 s.replace(...).replace(...).replace(...)... 的快速方法？我已经在几个字符上尝试了这个来替换，并且文档剥离变得非常慢。

编辑，我的 unutbu 代码版本似乎不起作用：

python unicode parsing ascii text-processing

2010-05-18T02:29:38.650

0 投票

7 回答

3678 浏览

bash - Bash：有什么命令可以替换文本文件中的字符串？

我有一个包含许多文本文件的目录层次结构。我想每次出现在一个文件中时搜索一个特定的文本字符串，然后用另一个字符串替换它。例如，我可能想用“Pepsi”替换字符串“Coke”的每次出现。有谁知道如何做到这一点？我想知道是否有某种 Bash 命令可以做到这一点，而不必在编辑器中加载所有这些文件，或者想出一个更复杂的脚本来做到这一点。

我发现这个页面解释了一个使用 sed 的技巧，但它似乎不适用于子目录中的文件。

bash shell replace text-processing

2010-05-18T18:58:02.350

0 投票

3 回答

257 浏览