1
lat
50.63757782
50.6375742
50.6375742
50.6374077762
50.63757782
50.6374077762
50.63757782
50.63757782

我用这些纬度值绘制了一个图表,并注意到图表中突然出现峰值(异常值)。我想用最后三个值的中值替换每个 lat 值,以便我可以看到有意义的结果

输出可能是

lat               lat_med
50.63757782 50.63757782
50.6375742  50.6375742
50.6375742  50.6375742
50.63740778 50.6375742
50.63757782 50.6375742
50.63740778 50.6375742
50.63757782 50.6375742
50.63757782 50.6375742

我有数千个这样的纬度值,需要使用 for 循环来解决这个问题。我知道以下代码有错误,并且由于我是 python 的初学者,我感谢您在解决此问题方面的帮助。

for i in range(0,len(df['lat'])):
    df['lat_med'][i]=numpy.median(numpy.array(df['lat'][i],df['lat'][i-2]))

我刚刚意识到三点的中位数计算不符合我的目的,我需要考虑五个值。有没有办法改变我想要的值的中值函数。谢谢您的帮助

def median(a, b, c):
    if a > b and a > c:
        return b if b > c else c

    if a < b and a < c:
        return b if b < c else c

    return a
4

2 回答 2

0

您似乎正在使用pandas'Dataframe结构,所以:

import pandas as pd
import numpy as np

df = pd.DataFrame({'lat' : [50.63757782,
                            50.6375742,
                            50.6375742,
                            50.6374077762,
                            50.63757782,
                            50.6374077762,
                            50.63757782,
                            50.63757782]})

def replace_values_with_medians(array):
    last = array.shape[0]-2
    index = 0
    result = np.zeros(last)
    while index < last:
        result[index] = np.median(array[index:index+3])
        index += 1
    return result

lat_med_df = pd.DataFrame({'lat_med':replace_values_with_medians(df['lat'])})
df = pd.concat([df,lat_med_df], axis = 1)
del lat_med_df

结果:

>>> df
         lat    lat_med
0  50.637578  50.637574
1  50.637574  50.637574
2  50.637574  50.637574
3  50.637408  50.637408
4  50.637578  50.637578
5  50.637408  50.637578
6  50.637578        NaN
7  50.637578        NaN
于 2016-10-07T14:22:29.427 回答
0

只需考虑倒数第二个元素,然后将中位数从这个、上一个和下一个元素中取出。请注意,第一个和最后一个元素保持原样。

尝试这个:

lat = [50.63757782, 50.6375742, 50.6375742, 50.6374077762, 50.63757782, 50.6374077762, 50.63757782, 50.63757782]

# returns median value out of the three values
def median(a, b, c):
    if a > b and a > c:
        return b if b > c else c

    if a < b and a < c:
        return b if b < c else c

    return a


# add the first element
filtered = [lat[0]]

for i in range(1, len(lat) - 1):
    filtered += [median(lat[i - 1], lat[i], lat[i + 1])]

# add the last element
filtered += [lat[-1]]

print(filtered)

你正在做的是一个非常基本的中值滤波器

于 2016-10-07T13:51:25.503 回答