问题标签 [re]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 处理字母和数字组合的简单方法
假设我有两个字符串:
如果我相互比较,我想要两个字符串相等的结果。例如'AbC' == 'aBc', '024' == '24'
我已经知道如果我用 \w+ 和 \d+ 区分它们并分别转换为小写和 int,我可以得到一个结果,说两个字符串是相同的。但我想知道是否有一些更简单的功能可以做到这一点。
*编辑 比较应该适用于 string_ex1、string_ex2 和 string_ex3、string_ex4
python - 使用 Python 基于特定模式进行标记
abc ABC - - 12 V
我必须从具有和之类的句子的句子中标记某些模式ab abc 1,2W
。这里12 V
和1,2W
都是带单位的值。所以我想标记为abc
,ABC
和12 V
. 对于另一种情况: ab
, abc
, 1,2W
. 我怎样才能做到这一点 ?那么 nltk word_tokenizer 是一个选项,但我不能插入任何模式,或者我可以吗?
word_tokenize(test_word)
python - Python 字典理解
这感觉应该很明显,但我错过了正确的形式。
给定一个字符串列表,例如
fields = ["format = gatheringnutsinmay", "device = TESTX"]
我正在尝试编写字典理解来制作字段字典:
items = {"format": "gatheringnutsinmay", "device": "TESTX }
我现在有:
但我得到了错误:
_kv_seperator.split(f)
ValueError: too many values to unpack (expected 2)
请指正!
python - 正则表达式:如何匹配模式的补码
我从包含换行符(在本例中为 \N)和我不想保留的其他子字符串的文本文件中获取字符串。在换行符的情况下,我可以使用...
匹配它们,但我想知道如何匹配字符串的其余部分。正如我所说,我需要用其他子字符串来做。我试着做...
但这没有返回匹配项。我猜它实际上试图匹配一个以'\'开头的'N',而后者又以'\'以外的任何字符开头。
如何匹配与我传递的正则表达式不匹配的任何内容?
python - 正则表达式匹配字符串中的电话号码
我正在尝试以特定格式匹配电话号码,就像 021-768-4444
我编写了一个程序,当将字符串传递给正则表达式时识别有效的电话号码,并且我的程序成功完成了此任务,但是当我通过电话时除了这种格式之外的数字,它也可以识别而不是显示给我None
:
这是代码:
上面的代码给了我这个输出:
虽然我希望它是None
因为我知道如果在字符串中找不到正则表达式模式,则 search() 方法将返回 None 。
但是,如果我传递了正确的电话号码,它会按预期工作:
这对我来说是非常奇怪的行为,有人可以指导我哪里错了吗?任何帮助将不胜感激。谢谢
python - 如何根据来自不同列表的单词匹配拆分字符串?
我有一个字符串。现在,如果两个不同列表中的任何内容匹配,我想将字符串拆分为多个部分。我怎样才能做到这一点 ?我有什么。
在给定的场景中,我的预期输出是["I have a", "HTML","file"]
python - 更高效的正则表达式
我正在解析大约 200,000 个文档(每个文档约 1-3gb),以使用正则表达式删除所有非字母数字字符,并匹配一些古老代码的输入格式。每个单词/数字都需要用 . 分隔_
。
我已将它们分成单独的部分,因此它可以工作,但我一直试图将表达式组合成一个,但没有成功。
我怎样才能将这些碎片组合在一起?
组合表达式有哪些注意事项?
示例字符串:
'"where is the Vehicles 我是一群隨機人物 "countries"=>"35,214" "refinement"=>"3" 我的书在哪里"I\'m a dirty array object"=>"" "category_ids"=>"2,5,7,8" "data_size_units"=>"", "delivery_formats"=>"1,4" "delivery_® ® ®methods"=>"1,2", "price_currencies"=>"1" , "trial_currencies"=>"1", "categories"=>"2,10 ,19", "Delivery_growth_units ® ® ®"=>"", "trial_duration_units"=>"6", 私の本はどこですか "collection_time_units"=>"", "strategies"=>"2,3 , 4,6", "processing_time_units"=>"", "delivery_frequency_units" =>"", "subscription_duration_units "=>"6" ® ® ® ģ ģ ģ - GPS Place-Visits for Delivery Vehicles'
re - 查找最长的重复子序列
我有一个随机字符串,例如:
我想找出最长的重复子串及其长度。在这种情况下,答案应该是“bbbbb”和5。什么是正则表达式方式?
python - 基于词汇和正则表达式矢量化文档
我正在尝试使用 sklearn 的 CountVectorizer 训练文本分类器。问题是我的训练文档有许多特定于文档的标记。因此,例如,CountVectorizer.fit_transform 方法可以很好地处理常规的英语单词,但是有些标记的格式适合正则表达式:'\w\d\d\w\w\d',例如作为“d84ke2”。就像现在一样,fit_transform 方法只会将“d84ke2”的面值作为特征使用。
我希望能够使用那些与特定正则表达式匹配的特定标记作为他们自己的特征,并将常规英语单词作为他们自己的特征,因为创建诸如“d84ke2”之类的特征将是无用的,因为这不会再次出现在任何其他文件中。
我还没有找到一种方法来做到这一点,更不用说“最好”的方法了。下面是我的代码示例,您可以在其中看到标记“j64ke2”、“r32kl4”、“w35kf9”和“e93mf9”都变成了它们自己的特征。为了清楚起见,我重复一遍:我想基本上将这些功能浓缩成一个并保留其他功能。
python - 比较两个句子数据框并返回第三个
我想比较两个长数据框列的句子,并返回第三个看起来像这样的数据框。快照如下所示。
我的第一种方法是冗长的,只适用于单个实例,但是当我将它应用于数据框时失败了。可以在上一个问题中找到。
逻辑是对于 c1 和 c2 中的字,新值 =1,对于仅 c1 中的字,值设置为零。