问题标签 [text-chunking]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 问题

0 投票

1 回答

894 浏览

python - NLTK - 用特定单词替换块

我正在使用 nltk 研究 NLP。我正在使用分块来提取人名。分块后，我想用特定的字符串“男性”或“女性”替换这些块。

我的代码是：

我的输入数据是：

杰克·斯派洛船长抵达牙买加的皇家港征用一艘船。尽管拯救了韦瑟比·斯旺州长的女儿伊丽莎白·斯旺溺水身亡，但他还是因海盗罪被判入狱。

当前输出为：

(S (Name Captain/NNP Jack/NNP Sparrow/NNP) 到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBG (Name Elizabeth/NNP Swann/NNP) ,/, /IN,/的/DT女儿/NN (Name Governor/NNP Weatherby/NNP Swann/NNP) ,/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)

我想用 'Male' 或 'Female' 替换这些块，这应该输出为：

(S Male/NNP 到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBG Female/NNP ,/, /IN,/的/DT女儿/NN Male/NNP ,/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)

代码中的粗体部分没有做它应该做的事情。该print subtree语句显示了更改，但print chunked没有更改。

我做错了什么还是有其他方法？
我是 python 和 nltk 的新手。任何帮助表示赞赏。

male并female包含名称列表：

[“杰克斯派洛船长”、“韦瑟比斯旺州长”、“罗宾”]

[“伊丽莎白斯旺”，“珍妮”]

2018-06-20T06:16:33.400

0 投票

1 回答

54 浏览

uima - 在 Uima Pipeline 中使用时，TreeTagger 找不到 Charsetname

我想使用 TreeTagger 在 uima 管道内对德语文本进行分块。当我使用 cmd 启动 Tagger 时，分块工作正常，但在管道中使用时会导致以下错误：

我想我应该指定参数“Chunk_Mapping_Location”，但我不知道是哪个文件。分块器通过以下方式初始化：

uima treetagger text-chunking dkpro-core

2018-07-19T14:37:00.813

0 投票

2 回答

44 浏览

python - Python中文本文件的条件分块

希望这是一个非常直截了当的问题。我有一个成绩单，我试图将其分成每个发言者的块。我目前拥有的代码是；

这会按照我的意愿拆分文本，但是我错过了第二个话语中的“演讲者”标识符。为了识别目的，我需要保留它。具体来说，我试图获得的是类似于以下的结果；

欢迎任何建议

谢谢

python text-processing transcription text-chunking

2018-08-03T15:19:41.290

0 投票

1 回答

37 浏览

python - 在 python 中使用 Regex 将带有某些特定单词或字符（如逗号）的文本分块

我正在使用以下代码将带有连词的文本分块。但是我也希望添加“，”逗号字符。因此，每当文本面对连词或逗号之一时，它就会拆分文本。我怎样才能做到这一点？

python regex text-chunking

2020-08-14T08:34:35.553

0 投票

1 回答

224 浏览

python - Python 中的构成树 (NLTK)

我在这里找到了这段代码：

据我了解，这段代码定义了 PP、NP 和 VP……我怀疑句法标签已经在这里定义了。这些组合标签不是在 NLTK 中定义的吗？这是重点吗？此外，在 chunker 的最后一行{<V> <NP|PP>*}，是否使用了上面定义的NP: {<DT>?<JJ>*<NN>}和PP: {<P> <NP>}？

python python-3.x parsing nltk text-chunking

2020-09-27T00:37:50.640

0 投票

1 回答

97 浏览

python - 解析句子 - 匹配屈折变化并跳过标点符号

我正在尝试解析python中的句子-对于我得到的任何句子，我应该只使用出现在“say”或“ask”之后的单词（如果这些单词没有出现，我应该使用整个句子）我只需使用正则表达式即可：

（这仅适用于“说”，但添加“询问”不是问题......）

问题是，如果我在“说”这个词之后得到一个带有逗号、冒号 (,:) 之类的标点符号的句子，它也会使用它。有人建议我使用 nltk 标记化来定义它，但我是 python 新手，不明白如何使用它。我看到 nltk 具有 RegexpParser 功能，但我不确定如何使用它。请帮我：-）

** 我忘了提——我也想识别“说”/“问”等，不想抓住包含“说”或“问”的词（我不确定是否有这样的词。 ..)。另外，如果 where are multiply 'say' 或 'ask' ，我只想抓住句子中的第一个标记。**

python parsing nltk text-chunking

2021-02-05T09:43:52.203

0 投票

0 回答

33 浏览

r - 如何以递增的方式拆分文本？

readtext我有一个使用库读入软件的文本列表。

这 100 个 pdf 文件大小不等，从 6000 到 40000 字不等。我需要以越来越多的方式将它们分块。

这里的by参数-length(words.split[[1]]-似乎有问题。因为文本大小不相等，一个文本的长度不适用于更长的文本。所以，我需要调试这以便函数运行。我by的列表中的所有属性都不能有一个固定值。我需要这个函数by根据进入函数的属性的索引来更改值。我的意思是长度（words.split [ [1]]) 为列表中的第一个，length(words.split[[2]] 为第二个等等。提前感谢您的时间和帮助。

r text-mining stringr stringi text-chunking

2021-04-02T16:30:28.400

1 2 3 4 5 6 7 8 9 10

问题标签 [text-chunking]

Reference