问题标签 [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
734 浏览

java - 如何将预训练的 MaltParser 解析模型用于英语

我正在尝试按照下一页中的步骤使用 MaltParser 的英语预训练解析模型,但反复出现空指针异常。 http://maltparser.org/mco/english_parser/engmalt.html

我正在 Windows 机器上的 MaltParser 1.4 版和 Java 6 版上尝试这个。我认为该模型是在 Linux 机器上训练的,因为模型中的一些目录信息表明了这一点。我不确定这是否会导致问题。我在网上搜索了帮助,但没有找到任何具体的内容。

请帮我解决这个问题。提前谢谢你。

0 投票
3 回答
1558 浏览

java - Parsing a text file in Java

Example from input file:

The Artist, Title & Lyrics fields have to be extracted to their respective Strings with captalization and format unchanged. This code for the Artist field

ends up printing this out:

From the code, I can't see why the output is printing this way. For every time through the loop, the readToken string gets refreshed, and should then be compared by the contains() method. Obviously I'm missing something here.

So, am I close to the right track or am I in a completely different city?

0 投票
2 回答
986 浏览

perl - 哪些 Perl 模块适合数据处理?

九年前,当我开始使用 Perl 解析 HTML 和自由文本时,我阅读了经典的使用 Perl 进行数据处理。有人知道 David 是否计划更新这本书,或者是否有类似的书籍或网页解释了XML-TwigRegexp-Grammars等新的解析模块?

我认为在过去的九年里,有些模块仍然和以前一样好,有些是最新的,但有新的有趣的方法,有些有更好的替代品。例如,Parse-RecDescent仍然是自由文本解析的唯一选择,还是 Perl 6 影响的 Regexp-Grammars会在许多情况下替代它?

我已经有四年没有使用 Perl 进行有效的 HTML、XML 或自由文本数据挖掘了,所以我在这方面的工具包可能有点过时了。因此,对于 HTML 和 DOM 操作、链接提取/验证、Web 测试(如 Mechanize)、XML 操作和自由文本解析的任何反馈,来自与该领域当前 CPAN 模块保持同步的人们都将非常受欢迎。

我的工具包中添加了一些新功能:

仍在我的工具箱中:

0 投票
3 回答
105 浏览

c# - 如何删除我的字符串的一部分?

继续我之前的问题,我现在想在找到该数字并将其存储在变量中后删除它。

0 投票
4 回答
4160 浏览

parsing - 将字符串解析为树结构?

我试图弄清楚如何将这种格式的字符串解析成树状的任意深度的数据结构。

我已经尝试为此使用一些正则表达式(例如 #"{([^{}]*)}" ),但是我尝试过的一切似乎都将树“压平”成一个大列表。我可能从错误的角度来处理这个问题,或者正则表达式可能不是适合这项工作的工具。

谢谢你的帮助!

0 投票
2 回答
1777 浏览

php - 在 PHP 中智能解析用户搜索词

我正在为我的 PHP 网站创建搜索服务,我想知道其他人如何根据引号(以及将来可能的其他符号)智能地解析搜索词。

换句话说,搜索词螺丝刀锤子可能会产生 ['screwdriver', 'hammer'] 的数组,但“平头螺丝刀”锤子可能会产生 ['flathead screwdriver', 'hammer']。

我知道我可以在一个草率的循环中完成这个,但我确信 PHP 有内置的东西来处理这个。

0 投票
3 回答
2614 浏览

python - 如何根据特殊条件在文本文件的每一行中去除变量空格 - Python中的单行?

我有一些数据(文本文件)以人们能想到的最不均匀的方式格式化。我试图尽量减少解析这些数据的手动工作量。

样本数据 :

条件 :

  • 应该将多个空格压缩为分隔符(管道更好?最终目标是将这些文件存储在数据库中)。
  • 除了第一列之外,其他列中不会有任何空格,因此所有这些空格都可以压缩为管道。
  • 只有第一列可以有多个带空格的单词 (Mary K Jones)。其余的列主要是数字和一些字母。
  • 第一列和第二列都是字符串。它们之间几乎总是有多个空格,因此我们可以区分两列。(如果有一个空格,考虑到可怕的格式,这是我愿意承担的风险!)。
  • 列数各不相同,因此我们不必担心列名。我们想要的只是提取每一列的数据。

希望我说得通!我有一种感觉,这个任务可以在一个单行机中完成。我不想循环,循环,循环:(

Muchos gracias “Pythonistas” 一路阅读,在这句话之前没有退出!

0 投票
4 回答
3245 浏览

c# - 在 C Sharp 中解析嵌套文本

如果我有一系列具有这种基本格式的字符串:

然后它们可以像这样嵌套:

所以每个项目都可以有 0 或 1 个值条目。

解析这种格式的最佳方法是什么?我是否只使用 string.Split() 或 string.IndexOf() 之类的东西,还是有更好的方法?

0 投票
2 回答
2962 浏览

perl - 如何从 Perl 中的文本文件中提取/解析表格数据?

我正在寻找类似HTML::TableExtract的东西,但不是用于 HTML 输入,而是用于包含以缩进和间距格式化的“表格”的纯文本输入。

数据可能如下所示:

0 投票
1 回答
149 浏览

algorithm - 最流行的子串

我正在尝试将大量短字符串解析为一些逻辑部分。似乎有人已经解决了一个有趣的问题,但我找不到任何论文/解决方案(或者我可能尝试了错误的关键字)。

琴弦有 2-5 个部分。如果我用每个单词替换一个字母,说明它属于哪个“部分”/“部分”,这里将是它们的一个示例:

大多数“部分”只有 2-3 个单词长,并且在约 10k 个字符串中出现约 100-500 次完全相同的部分。这意味着,在 100 个字符串中有 AAA == "some text here",在其他 100 个字符串中有 AAA == "some other text"。在一个字符串中,每种类型只能有一个部分(它们通常按顺序排列)。任何部分都没有一组有限的值,将来可能会出现新值。

问题是:如果我有足够的样本并且不想手动标记它们,如何检测这些部分?这可以被监督/确认,不是全自动的,所以一个概率列表是可以的。

我正在考虑简单地制作一个 2-5 个长单词 n-gram 的列表并找到概率,但这并没有考虑到顺序(这可能会有所帮助)。它还会检测到某些文本是常见的,但如果我有一些特定的 2 部分经常使用相同的值,则此方法将无法正常工作。假设我只有由 ABCD 组成的字符串,每行都具有相同的值:

只做 ngram 分析,我很可能 A 是一个部分,以及 AB、C 和 D。在这种情况下,我想从结果中消除 AB,但以一种不分配自己的方式节到像“the”这样的词,并删除所有碰巧包含“the”的较大部分。

有没有针对类似问题的已知解决方案?