查找極端值
數據出現極端值(outliner),通常指每個類別出現的次數太少、太稀有,或是某些取值太大。除了風控等領域,通常來講,如果不把極端值處理掉,容易對分析的結論或者模型的效果產生負面影響。
對於極端值的判斷常用的方法常用的有標準差及分位數。
標準差:把超過平均值n個標準差的值定義為異常值,這裡的n的取值,取決於具體業務場景及變量的分佈,比如超過平均值在正負3個標準差以上的數值。
分位數:對值由小至大進行排序,然後從最大或最小的數值到推1%,這些值可能就屬於極端值
Last updated