问题标签 [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
15194 浏览

ruby - 提取句子/字符串中的最后一个单词?

我有一个字符串数组,具有不同的长度和内容。

现在我正在寻找一种简单的方法来从每个字符串中提取最后一个单词,而不知道该单词有多长或字符串有多长。

就像是;

0 投票
2 回答
472 浏览

algorithm - 分词统计方法

我想解决分词问题(从没有空格的长字符串中解析单词)。例如,我们想从somelongwordto中提取单词[some, long, word]

我们可以通过字典的一些动态方法来实现这一点,但我们遇到的另一个问题是解析歧义。即orcore=>or coreorc ore(我们不考虑短语含义或词性)。所以我考虑使用一些统计或机器学习方法。

我发现带有训练集的朴素贝叶斯和维特比算法可以用来解决这个问题。你能给我一些关于将这些算法应用于分词问题的信息吗?

UPD:我已经在 Clojure 上实现了这个方法,使用了 Peter Norvig代码中的一些建议

0 投票
3 回答
1933 浏览

python - 检查是否可以分词

这是对此响应和用户发布的伪代码算法的后续问题。由于它的年龄,我没有对这个问题发表评论。我只对验证字符串是否可以拆分为单词感兴趣。该算法不需要实际拆分字符串。这是来自链接问题的回复:

让 S[1..length(w)] 是一个带有布尔条目的表。如果单词 w[1..i] 可以拆分,则 S[i] 为真。然后设置 S[1] = isWord(w[1]) 并为 i=2 到 length(w) 计算

S[i] = (isWord[w[1..i] 或 {2..i} 中的任何 j:S[j-1] 和 isWord[j..i])。

我正在将此算法翻译成简单的 python 代码,但我不确定我是否正确理解它。代码:

我有两个相关的问题。1)这段代码是否将链接算法正确翻译成Python,如果是,2)现在我有S,我如何用它来判断字符串是否只由单词组成?在这种情况下,is_word是一个简单地在列表中查找给定单词的函数。我还没有实现它作为一个尝试。

更新:更新代码以包含建议的更改后,它不起作用。这是更新的代码:

它应该返回True这两个。

0 投票
3 回答
1953 浏览

java - 在段落中查找第一句话

我有一个基本上包含一个段落的字符串。可能会有换行符。现在我只想得到字符串中的第一句话。我以为我会尝试

那是一个带空格的点。

问题是这在诸如firstName. LastName.

我正在使用.Net。有没有一种好的方法可以实现这一目标?我还在标记 Java 以查看是否可以缩小搜索范围。

0 投票
8 回答
13292 浏览

php - 在 PHP 中将段落分解为句子

我一直在使用

将段落拆分为句子。但是,这不包括以不同标点符号结束的句子,例如!? : ;

有没有办法使用数组作为分隔符而不是单个字符?或者是否有另一种使用各种标点符号进行拆分的巧妙方法?

我试过了

希望,但它没有工作......

0 投票
2 回答
17783 浏览

python - 如何在Python中遍历字符串的句子?

假设我有一个字符串text = "A compiler translates code from a source language"。我想做两件事:

  1. 我需要使用库遍历每个单词和词干NLTK。词干提取的功能是PorterStemmer().stem_word(word)。我们必须传递参数'word'。我怎样才能阻止每个单词并取回被阻止的句子?

  2. 我需要从text字符串中删除某些停用词。包含停用词的列表存储在文本文件中(空格分隔)

    如何从中删除这些停用词text并获得干净的新字符串?

0 投票
1 回答
380 浏览

ajax - CodeIgniter 的 url 分段不适用于我的 JSON

这是我在这里的第一篇文章,我还没有想出正确格式化我的帖子,但它就在这里。

所以基本上,如果我直接指向一个 php 文件,我只能让我的代码工作。如果我尝试在我的控制器中调用一个方法,似乎什么都没有发生。

我的 JavaScript:

我的标记:

我的控制器:

可能是我的控制器做错了什么。因为它的代码只有在创建一个 hehelol.php 文件并像这样直接引用它时才有效。

谁知道我需要做什么才能使我的控制器正常工作?请帮忙!:)

0 投票
6 回答
2334 浏览

python - 如何从下一段中得到第一句话?

我知道这听起来很容易。我想过用第一个点(。)作为基准,但是当缩写和短形式出现时,我感到无助。

例如 -

温斯顿伦纳德斯宾塞 - 丘吉尔爵士,KG,OM,CH,TD,PC,DL,FRS,Hon。RA(1874 年 11 月 30 日 - 1965 年 1 月 24 日)是英国政治家和政治家,以在第二次世界大战期间领导英国而闻名。他被广泛认为是战时最伟大的领导人之一,曾两次担任总理。丘吉尔是一位著名的政治家和演说家,也是英国陆军军官、历史学家、作家和艺术家。

在这里,第一个点是 Hon.,但我想要在 Second World War 结束的完整第一行。

人有可能吗???

0 投票
2 回答
496 浏览

objective-c - Objective C 列举段落中的句子

我想写一个枚举器,它会遍历一段文本并一次给我一个句子。我尝试将 stringEnumerate 与 NSStringEnumerationBySentences 一起使用,但这只是查看句点并失败。例如,假设我有以下文本块:

“参议员 John A. Boehner 决定不继续前进。他还决定不召集国会。新闻记者说……”

我希望我的功能将上述段落分解为以下句子:

  1. 参议员约翰·A·博纳决定不再前进

  2. 他还决定不召集大会(没有第三句话,因为它是半句话)

带有句子选项的字符串枚举器只查看句点并以错误的方式分解:

  1. 参议员约翰 A。

  2. 博纳决定不再前进

  3. 他还决定不召开代表大会

  4. 新闻记者说,虽然......

有没有我可以调用的库或函数在这方面做得更好?

谢谢

0 投票
4 回答
2708 浏览

python - Parsing HTML into sentences - how to handle tables/lists/headings/etc?

How do you go about parsing an HTML page with free text, lists, tables, headings, etc., into sentences?

Take this wikipedia page for example. There is/are:

After messing around with the python NLTK, I want to test out all of these different corpus annotation methods (from http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include):

  • Word Tokenization: The orthographic form of text does not unambiguously identify its tokens. A tokenized and normalized version, in addition to the conventional orthographic version, may be a very convenient resource.
  • Sentence Segmentation: As we saw in Chapter 3, sentence segmentation can be more difficult than it seems. Some corpora therefore use explicit annotations to mark sentence segmentation.
  • Paragraph Segmentation: Paragraphs and other structural elements (headings, chapters, etc.) may be explicitly annotated.
  • Part of Speech: The syntactic category of each word in a document.
  • Syntactic Structure: A tree structure showing the constituent structure of a sentence.
  • Shallow Semantics: Named entity and coreference annotations, semantic role labels.
  • Dialogue and Discourse: dialogue act tags, rhetorical structure

Once you break a document into sentences it seems pretty straightforward. But how do you go about breaking down something like the HTML from that Wikipedia page? I am very familiar with using HTML/XML parsers and traversing the tree, and I have tried just stripping the HTML tags to get the plain text, but because punctuation is missing after HTML is removed, NLTK doesn't parse things like table cells, or even lists, correctly.

Is there some best-practice or strategy for parsing that stuff with NLP? Or do you just have to manually write a parser specific to that individual page?

Just looking for some pointers in the right direction, really want to try this NLTK out!