9.煩人的缺失數據與極端值

煩人的缺失數據與極端值

在數據分析工作中,面對收集而來的數據,數據清洗是首要環節,而實際數據中通常都會包含缺失值(missing value)、極端值(outliner)等異常數據。

產生缺失值得原因非常多,例如銷售錄入忘記填寫、欄位非必填、數據採集設備故障等一些原因而丟失;或是數據有滯後性,例如商品售後評價等。

極端值則是該觀測值與大多數觀測值差異非常大。它們可能是錯誤的,也可能只是不尋常而已。例如在風控、反詐欺等領域,極端值反而更有分析價值。

異常數據的處理方法主要有兩種:第一種方法直接過濾掉,第二種是用其他值填補。本章將介紹如何查找異常數據,並對其進行處理。

Last updated