非常基本的问题,但我无法解决这个问题。我的示例文本在页面底部提供。
我想要的唯一一行是这样的:“178-207 30 WVRTRWALLLLFWLGWLGMLAGAVVIIVRA -3,95”。我目前在 OSX(终端和我不是朋友)上使用 TextWrangler,它提供正则表达式替换。我正在尝试分步进行,我的第一步是尝试去除所有的蛋白质序列。
在 TextWrangler 中,我搜索这个:
工作顺序([^;]*)------------------------------------------ ------------------
并一无所有。但是,我最终得到的几乎是一个空文档,因为 TextWrangler 似乎找到了“工作序列”的第一个实例,但是“----------------- -------------------------------------------"。我该如何改变,所以这是一个逐步的过程,找到两者的第一个实例并替换为空,然后是第二个实例等?
来自瑞典的感谢和问候
蛋白质的结果摘要:sp|P08195|4F2_HUMAN 4F2 GN=SLC3A2 PE=1 SV=3 Translocon TM 分析结果分区:水到双层 窗口范围:19-30
translocon TM 预测段数:2
178-207 30 WVRTRWALLLLFWLGWLGMLAGAVVIIVRA -3,95
438-460 23 ARLLTSFLPAQLLRLYQLMLFTL 1,63
工作序列长度 = 630):
MELQPPEASIAVVSIPRQLPGShSEAGVQGLSAGDDSELGShCVAQTGLELLASGDPLPS ASQNAEMIETGSDCVTQAGLQLLASSDPPALASKNAEVTGTMSQDTEVDMKEVELNELEP EKQPMNAASGAAMSLAGAEKNGLVKIKVAEDEAEAAAAAKFTGLSKEELLKVAGSPGWVR TRWALLLLFWLGWLGMLAGAVVIIVRAPRCRELPAQKWWhTGALYRIGDLQAFQGhGAGN LAGLKGRLDYLSSLKVKGLVLGPIhKNQKDDVAQTDLLQIDPNFGSKEDFDSLLQSAKKK SIRVILDLTPNYRGENSWFSTQVDTVATKVKDALEFWLQAGVDGFQVRDIENLKDASSFL AEWQNITKGFSEDRLLIAGTNSSDLQQILSLLESNKDLLLTSSYLSDSGSTGEhTKSLVT QYLNATGNRWCSWSLSQARLLTSFLPAQLLRLYQLMLFTLPGTPVFSYGDEIGLDAAALP GQPMEAPVMLWDESSFPDIPGAVSANMTVKGQSEDPGSLLSLFRRLSDQRSKERSLLhGD FhAFSAGPGLFSYIRhWDQNERFLVVLNFGDVGLSAGLQASDLPASASLPAKADLLLSTQ PGREEGSPLELERLKLEPhEGLLLRFPYAA
蛋白质的结果摘要:sp|Q9NPC4|A4GAT_HUMAN OS=智人 GN=A4GALT PE=2 SV=1 Translocon TM 分析结果分区:水到双层 窗口范围:19-30
translocon TM 预测段数:1
19-43 25 RVCTLFIIGFKFTFFVSIMIYWhVV -1,04
工作序列长度 = 353):
MSKPPDLLLRLLRGAPRQRVCTLFIIGFKFTFFVSIMIYWhVVGEPKEKGQLYNLPAEIP CPTLTPPTPPShGPTPGNIFFLETSDRTNPNFLFMCSVESAARThPEShVLVLMKGLPGG NASLPRhLGISLLSCFPNVQMLPLDLRELFRDTPLADWYAAVQGRWEPYLLPVLSDASRI ALMWKFGGIYLDTDFIVLKNLRNLTNVLGTQSRYVLNGAFLAFERRhEFMALCMRDFVDh YNGWIWGhQGPQLLTRVFKKWCSIRSLAESRACRGVTTLPPEAFYPIPWQDWKKYFEDIN PEELPRLLSATYAVhVWNKKSQGTRFEATSRALLAQLhARYCPTThEAMKMYL