我正在尝试抓取和清理维基百科数据。我有一个包含维度的数据字段,如下所示。
["112 x 76 yards (102.4m x 69.4m)", "104.5 x 70.3 m", "107m x 72m",
"109×73 yds / 100×67 m", "{{convert|105|x|68|m|yd|1}}", "100 metres by 70 metres"]
提取维度很容易,但是考虑到条目有多少变化,提取单位相当困难。解决这个问题的最佳方法是什么?
我已经开始使用;
"(\d+\.?\d*)"
应该提取所有尺寸,然后我将只保存前 2 个数字匹配,保存一个单位的第一个匹配('m','metre','metres','y','yard','yds ','yd','ft'.....)然后我可以稍后将所有转换为米。
我只是不确定如何保存第一场比赛。