问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java文本分类问题
我有一组 Books 对象,类Book定义如下:
其中title是书名,例如:Javascript for dummies。
taglist是我们示例的标签列表:Javascript 、jquery、“web dev”、..
正如我所说,有一套书谈论不同的事情:IT、生物学、历史……每本书都有一个标题和一组描述它的标签。
我必须按主题将这些书自动分类为单独的集合,例如:
它的书:
- 傻瓜Java
- 傻瓜的Javascript
- 在 30 天内学习 Flash
- C++ 编程
历史书籍:
- 世界大战
- 1960年的美国
- 马丁路德金生平
生物学书籍:
- ……
你们知道适用于这类问题的分类算法/方法吗?
一种解决方案是使用外部 API 来定义文本的类别,但这里的问题是书籍使用不同的语言:法语、西班牙语、英语..
statistics - 给定一个文档,选择一个相关的片段
当我在这里提出问题时,自动搜索返回的问题的工具提示给出了问题的前一小部分,但是其中相当一部分没有给出比标题。有没有人知道如何制作过滤器以剔除无用的问题?
我的第一个想法是修剪任何仅包含某些列表中的单词的前导句子(例如,停用词,加上标题中的单词,加上与标签相关性非常弱的 SO 语料库中的单词,即同样可能无论标签如何,都会出现在任何问题中)
python - 使用 Python 去除和替换高 unicode 字符文档的最快方法是什么?
我正在寻找从大型文档中替换所有高 unicode 字符,例如重音 Es、左右引号等,以及低范围内的“正常”对应物,例如常规的“E”和直引号。我需要经常在一个非常大的文档上执行此操作。我在这里看到了一个我认为可能是 perl 的例子:http: //www.designmeme.com/mtplugins/lowdown.txt
在 Python 中是否有不使用 s.replace(...).replace(...).replace(...)... 的快速方法?我已经在几个字符上尝试了这个来替换,并且文档剥离变得非常慢。
编辑,我的 unutbu 代码版本似乎不起作用:
bash - Bash:有什么命令可以替换文本文件中的字符串?
我有一个包含许多文本文件的目录层次结构。我想每次出现在一个文件中时搜索一个特定的文本字符串,然后用另一个字符串替换它。例如,我可能想用“Pepsi”替换字符串“Coke”的每次出现。有谁知道如何做到这一点?我想知道是否有某种 Bash 命令可以做到这一点,而不必在编辑器中加载所有这些文件,或者想出一个更复杂的脚本来做到这一点。
我发现这个页面解释了一个使用 sed 的技巧,但它似乎不适用于子目录中的文件。
python - 从文本文件中提取数据的问题
我是 python 新手,我想从这种格式中提取数据
到这种格式
我已经编写了代码,希望它可以工作,但它不起作用,请帮助!
hmmtext 文件是
regex - 用于查找未终止字符串的正则表达式
我需要在 CSV 文件中搜索以未终止的双引号字符串结尾的行。
例如:
会匹配而
不会。
我对正则表达式的经验非常有限,我唯一能想到的就是
但是,这与行尾的最后一个引号相匹配。
这将如何完成?
bash - 内联 LaTeX \input 命令
我正在寻找一个程序来递归内联\input{}
LaTeX 文件中的所有命令。通过“递归”,我的意思是迭代地进行内联,直到\input{}
最终的 LaTeX 文件中没有任何命令。
我已经遇到过flatten包。但是,出于某种原因,我的 TeXLive 发行版没有安装它。当我执行命令sudo tlmgr show flatten
时,我收到错误消息:tlmgr: cannot find flatten
. 因此,我正在寻找更标准且更易于安装的替代工具。
algorithm - 是否有任何众所周知的算法来检测名称的存在?
例如,给定一个字符串:
“鲍勃和他的朋友吉姆史密斯去钓鱼了。”
Bob 和 Jim Smith 都是名字,但 bob 和 smith 都是单词。如果它们不是大写的,那么在我们对句子的了解之外,这方面的指示会更少。是否有任何众所周知的算法来检测名字的存在,至少是西方名字?
csv - 从具有大量空白的源中提取数据
我正在尝试从中提取数据:http ://www.phillysheriff.com/old_site/properties.html
理想情况下,我可以得到一个包含地址、病房、价格和平方英尺的 CSV 文件?是否有捷径可寻?
c - 请推荐一个好的文本处理项目
最近我意识到一个人必须擅长处理(解析)文本。它可能从解释 HTTP 响应或读取设置文件(*.ini 或 *.xml 或 *.json)到编写编译器或正则表达式引擎一样困难。
我同意现在我们有用于解释流行文本格式的库函数/方法。但是使用函数让我觉得缺少了一些东西。我不知道我错过了什么,但我肯定会因为对所有事情都使用函数而失去信心。
为了建立一些信心,我想尝试在 C 中进行一些文本处理。
任何人都可以建议一些中等水平但很好的项目吗?如果您能建议一些更复杂的有用项目,我们也将不胜感激。