9.煩人的缺失數據與極端值
煩人的缺失數據與極端值
【本章重點】了解缺失值、極端值的影響,並掌握處理語法。
在數據分析工作中,面對收集而來的數據,數據清洗是首要環節,而實際數據中通常都會包含缺失值(missing value)、極端值(outliner)等異常數據。
產生缺失值得原因非常多,例如銷售錄入忘記填寫、欄位非必填、數據採集設備故障等一些原因而丟失;或是數據有滯後性,例如商品售後評價等。
極端值則是該觀測值與大多數觀測值差異非常大。它們可能是錯誤的,也可能只是不尋常而已。例如在風控、反詐欺等領域,極端值反而更有分析價值。
異常數據的處理方法主要有兩種:第一種方法直接過濾掉,第二種是用其他值填補。本章將介紹如何查找異常數據,並對其進行處理。
Last updated