问题标签 [text-chunking]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
894 浏览

python - NLTK - 用特定单词替换块

我正在使用 nltk 研究 NLP。我正在使用分块来提取人名。分块后,我想用特定的字符串“男性”或“女性”替换这些块。

我的代码是:

我的输入数据是:

杰克·斯派洛船长抵达牙买加的皇家港征用一艘船。尽管拯救了韦瑟比·斯旺州长的女儿伊丽莎白·斯旺溺水身亡,但他还是因海盗罪被判入狱。

当前输出为:

(S (Name Captain/NNP Jack/NNP Sparrow/NNP) 到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBG (Name Elizabeth/NNP Swann/NNP) ,/, /IN,/的/DT女儿/NN (Name Governor/NNP Weatherby/NNP Swann/NNP) ,/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)

我想用 'Male' 或 'Female' 替换这些块,这应该输出为:

(S Male/NNP 到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBG Female/NNP ,/, /IN,/的/DT女儿/NN Male/NNP ,/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)

代码中的粗体部分没有做它应该做的事情。该print subtree语句显示了更改,但print chunked没有更改。

我做错了什么还是有其他方法?
我是 python 和 nltk 的新手。任何帮助表示赞赏。

malefemale包含名称列表:

[“杰克斯派洛船长”、“韦瑟比斯旺州长”、“罗宾”]

[“伊丽莎白斯旺”,“珍妮”]

0 投票
1 回答
54 浏览

uima - 在 Uima Pipeline 中使用时,TreeTagger 找不到 Charsetname

我想使用 TreeTagger 在 uima 管道内对德语文本进行分块。当我使用 cmd 启动 Tagger 时,分块工作正常,但在管道中使用时会导致以下错误:

我想我应该指定参数“Chunk_Mapping_Location”,但我不知道是哪个文件。分块器通过以下方式初始化:

0 投票
2 回答
44 浏览

python - Python中文本文件的条件分块

希望这是一个非常直截了当的问题。我有一个成绩单,我试图将其分成每个发言者的块。我目前拥有的代码是;

这会按照我的意愿拆分文本,但是我错过了第二个话语中的“演讲者”标识符。为了识别目的,我需要保留它。具体来说,我试图获得的是类似于以下的结果;

欢迎任何建议

谢谢

0 投票
1 回答
37 浏览

python - 在 python 中使用 Regex 将带有某些特定单词或字符(如逗号)的文本分块

我正在使用以下代码将带有连词的文本分块。但是我也希望添加“,”逗号字符。因此,每当文本面对连词或逗号之一时,它就会拆分文本。我怎样才能做到这一点?

0 投票
1 回答
224 浏览

python - Python 中的构成树 (NLTK)

我在这里找到了这段代码:

据我了解,这段代码定义了 PP、NP 和 VP……我怀疑句法标签已经在这里定义了。这些组合标签不是在 NLTK 中定义的吗?这是重点吗?此外,在 chunker 的最后一行{<V> <NP|PP>*},是否使用了上面定义的NP: {<DT>?<JJ>*<NN>}PP: {<P> <NP>}

0 投票
1 回答
97 浏览

python - 解析句子 - 匹配屈折变化并跳过标点符号

我正在尝试解析python中的句子-对于我得到的任何句子,我应该只使用出现在“say”或“ask”之后的单词(如果这些单词没有出现,我应该使用整个句子)我只需使用正则表达式即可:

(这仅适用于“说”,但添加“询问”不是问题......)

问题是,如果我在“说”这个词之后得到一个带有逗号、冒号 (,:) 之类的标点符号的句子,它也会使用它。有人建议我使用 nltk 标记化来定义它,但我是 python 新手,不明白如何使用它。我看到 nltk 具有 RegexpParser 功能,但我不确定如何使用它。请帮我 :-)

** 我忘了提——我也想识别“说”/“问”等,不想抓住包含“说”或“问”的词(我不确定是否有这样的词。 ..)。另外,如果 where are multiply 'say' 或 'ask' ,我只想抓住句子中的第一个标记。**

0 投票
0 回答
33 浏览

r - 如何以递增的方式拆分文本?

readtext我有一个使用库读入软件的文本列表。

这 100 个 pdf 文件大小不等,从 6000 到 40000 字不等。我需要以越来越多的方式将它们分块。

这里的by参数-length(words.split[[1]]-似乎有问题。因为文本大小不相等,一个文本的长度不适用于更长的文本。所以,我需要调试这以便函数运行。我by的列表中的所有属性都不能有一个固定值。我需要这个函数by根据进入函数的属性的索引来更改值。我的意思是长度(words.split [ [1]]) 为列表中的第一个,length(words.split[[2]] 为第二个等等。提前感谢您的时间和帮助。