问题标签 [text-chunking]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - NLTK - 用特定单词替换块
我正在使用 nltk 研究 NLP。我正在使用分块来提取人名。分块后,我想用特定的字符串“男性”或“女性”替换这些块。
我的代码是:
我的输入数据是:
杰克·斯派洛船长抵达牙买加的皇家港征用一艘船。尽管拯救了韦瑟比·斯旺州长的女儿伊丽莎白·斯旺溺水身亡,但他还是因海盗罪被判入狱。
当前输出为:
(S
(Name Captain/NNP Jack/NNP Sparrow/NNP)到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBG(Name Elizabeth/NNP Swann/NNP),/, /IN,/的/DT女儿/NN(Name Governor/NNP Weatherby/NNP Swann/NNP),/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)
我想用 'Male' 或 'Female' 替换这些块,这应该输出为:
(S
Male/NNP到达/VBZ in/IN (Name Port/NNP Royal/NNP) in/IN (Name Jamaica/NNP) to/TO commandeer/VB a/DT ship/NN ./. 尽管/IN 救援/VBGFemale/NNP,/, /IN,/的/DT女儿/NNMale/NNP,/,来自/IN溺水/VBG,/,他/PRP是/VBZ入狱/VBN为/IN盗版/NN./.)
代码中的粗体部分没有做它应该做的事情。该print subtree语句显示了更改,但print chunked没有更改。
我做错了什么还是有其他方法?
我是 python 和 nltk 的新手。任何帮助表示赞赏。
male并female包含名称列表:
[“杰克斯派洛船长”、“韦瑟比斯旺州长”、“罗宾”]
[“伊丽莎白斯旺”,“珍妮”]
uima - 在 Uima Pipeline 中使用时,TreeTagger 找不到 Charsetname
我想使用 TreeTagger 在 uima 管道内对德语文本进行分块。当我使用 cmd 启动 Tagger 时,分块工作正常,但在管道中使用时会导致以下错误:
我想我应该指定参数“Chunk_Mapping_Location”,但我不知道是哪个文件。分块器通过以下方式初始化:
python - Python中文本文件的条件分块
希望这是一个非常直截了当的问题。我有一个成绩单,我试图将其分成每个发言者的块。我目前拥有的代码是;
这会按照我的意愿拆分文本,但是我错过了第二个话语中的“演讲者”标识符。为了识别目的,我需要保留它。具体来说,我试图获得的是类似于以下的结果;
欢迎任何建议
谢谢
python - 在 python 中使用 Regex 将带有某些特定单词或字符(如逗号)的文本分块
我正在使用以下代码将带有连词的文本分块。但是我也希望添加“,”逗号字符。因此,每当文本面对连词或逗号之一时,它就会拆分文本。我怎样才能做到这一点?
python - 解析句子 - 匹配屈折变化并跳过标点符号
我正在尝试解析python中的句子-对于我得到的任何句子,我应该只使用出现在“say”或“ask”之后的单词(如果这些单词没有出现,我应该使用整个句子)我只需使用正则表达式即可:
(这仅适用于“说”,但添加“询问”不是问题......)
问题是,如果我在“说”这个词之后得到一个带有逗号、冒号 (,:) 之类的标点符号的句子,它也会使用它。有人建议我使用 nltk 标记化来定义它,但我是 python 新手,不明白如何使用它。我看到 nltk 具有 RegexpParser 功能,但我不确定如何使用它。请帮我 :-)
** 我忘了提——我也想识别“说”/“问”等,不想抓住包含“说”或“问”的词(我不确定是否有这样的词。 ..)。另外,如果 where are multiply 'say' 或 'ask' ,我只想抓住句子中的第一个标记。**
r - 如何以递增的方式拆分文本?
readtext我有一个使用库读入软件的文本列表。
这 100 个 pdf 文件大小不等,从 6000 到 40000 字不等。我需要以越来越多的方式将它们分块。
这里的by参数-length(words.split[[1]]-似乎有问题。因为文本大小不相等,一个文本的长度不适用于更长的文本。所以,我需要调试这以便函数运行。我by的列表中的所有属性都不能有一个固定值。我需要这个函数by根据进入函数的属性的索引来更改值。我的意思是长度(words.split [ [1]]) 为列表中的第一个,length(words.split[[2]] 为第二个等等。提前感谢您的时间和帮助。