我有大量文本文件(1000 多个),每个文件都包含来自学术期刊的文章。不幸的是,每篇文章的文件还包含上一篇文章结尾(开头)和下一篇文章开头(结尾)的“存根”。
我需要删除这些存根以准备对文章进行频率分析,因为存根构成重复数据。
在所有情况下,没有一个简单的字段来标记每篇文章的开头和结尾。但是,在这两种情况下,重复文本的格式似乎相同且位于同一行。
将每个文件与下一个文件进行比较然后删除重复文本的 1 个副本的脚本将是完美的。这似乎是编程时非常常见的问题,所以我很惊讶我找不到任何可以做到这一点的东西。
文件名按顺序排序,因此将每个文件依次与下一个文件进行比较的脚本应该可以工作。例如
bul_9_5_181.txt bul_9_5_186.txt
是两篇文章,一篇从第 181 页开始,另一篇从第 186 页开始。这两篇文章都包含在下面。
有两卷测试数据位于 [ http://drop.io/fdsayre][1]
注意:我是一名学者,正在为心理学史上的一个项目对旧期刊文章进行内容分析。我不是程序员,但我确实有 10 年以上的 linux 经验,并且通常可以在我去的时候解决问题。
谢谢你的帮助
文件名:bul_9_5_181.txt
通感
ISI
大多数葡萄牙语单词表示黑色物体或与黑色有关的想法。诚然,这种关联并不是真正的联觉,但作者认为,这些合乎逻辑的自发关联与真实的有色试镜案例之间只是程度问题。参考
DOWNEY, JUNE E. 一个有色味觉的案例。阿米尔。J. of Psycho!., 1911, 22, S28-539MEDEIROS-E-ALBUQUERQUE。Sur un phenomene de synopsie presente par des Millions de sujets。/ 。德心理。规范等路径,1911, 8, 147-151。MYERS, CS 一例通感。英国人。J. of Psychol., 1911, 4, 228-238。
情感现象——密歇根大学约翰·F·谢泼德教授的实验
今年莱比锡实验室发表了三篇文章。Drozynski (2) 反对使用味觉和嗅觉刺激来研究有感觉的器质性反应,因为可能涉及呼吸障碍。他使用有节奏的听觉刺激,发现当以不同的速率和不同的分组给予时,每个受试者都伴随着独特的感觉。他用脉搏计和水体积描记器记录胸部呼吸和曲线。每个实验都以正常记录开始,然后给予刺激,然后是对比刺激;最后,取了另一个正常值。测量呼吸的长度和深度(没有记录时间线),并确定吸气长度与呼气长度的关系。还测量了脉搏的长度和高度。表格总结了作者在每种感觉的反应期间发现每个数量增加或减少的次数。伴随给定节奏的感觉状态总是复杂的,但结果是指那个似乎占主导地位的维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低 表格总结了作者在每种感觉的反应期间发现每个数量增加或减少的次数。伴随给定节奏的感觉状态总是复杂的,但结果是指那个似乎占主导地位的维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低 表格总结了作者在每种感觉的反应期间发现每个数量增加或减少的次数。伴随给定节奏的感觉状态总是复杂的,但结果是指那个似乎占主导地位的维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低 但结果是指似乎占主导地位的那个维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低 但结果是指似乎占主导地位的那个维度。仅从记录中复制了一些与正常和反应期无关的摘录。作者指出,兴奋会增加呼吸的频率和深度、吸气-呼气比以及脉搏的频率和大小。手臂体积有起伏。只要效果是安静的,它会导致速度和深度的降低
182
约翰·F·谢泼德
呼吸、吸气-呼气比、脉搏频率和大小。手臂体积显示出随着呼吸波增加的趋势。宜人性显示