什麼是大數據
什麼是大數據
大數據並不僅是數據量大,而是一個包含了數據的獲取、傳輸、存儲、分析的技術與架構
大數據(Big Data),這個耳熟能詳的名詞,是《自然》雜誌於2008年9月,推出一個“大數據”封面專欄,中首次提出的。
然而,從還沒有計算機的幾百年前,我們就已經一直在利用數據,例如人口普查、海關統計、產品生產良率等,那麼大數據(Big Data)究竟是什麼?"大"在哪裡?
有資料報告預測,2025年,全球数据量将達到163ZB,比2016年的16.1ZB增加十倍。但世界上任何東西的“大”與“小”都是相對的,用某個具體的數據量標準作為大數據的“門檻”,即數據量超過多少字節就算大數據,並不恰當。
1MB
1024KB
1GB
1024MB
1TB
1024GB
1PB
1024TB
1EB
1024PB
1ZB
1024EB
大數據是網路發展下的產物,在個人電腦普及撥接的時代,網站和網頁的增長創造了大量的文本數據;到了3G 、4G的時代,智慧手機及穿戴設備的普及,無論你去跑步、看電視還是開車,幾乎所有活動都會產生數據,數據再度爆發成長,不僅僅只是数据量的规模、還包括更多樣化的數據格式,例如圖片、影片、語音、地理位置等,而且我們無時無刻都可以透過這些設備產生數據,例如在等車時看了Youtube、跟朋友吃飯時拍照上傳facebook,跑步時紀錄了地理位置等,數據產生的速度相當快。
由此我們可以理解,IDC在研究報告-Extracting Value from Chaos 中描述的大數據的三個特徵(又稱為3V):
龐大的數據量(volume),數據量從TB到數PB
多樣化的數據類型,有結構化、半結構化、非結構化的數據(variety),例如Web日誌、社交媒體互動等
數據的產生和處理速度很快(velocity),數據可以通過社交媒體、定位系統等應用快速大量地產生。
隨著大數據發展,除了原本的3V,也有人另外加上Veracity(真實性)和Value(價值)兩個V
在大數據這個概念出現以前,人們一直是用數據庫來存儲和管理數據。隨著訊息技術的發展,數據量的迅速增長及越來越複雜的數據集,特別是來自全新數據源的數據集,讓傳統數據庫開始不能滿足人們的需求,數據處理的困難可以分為兩種情況:
技術難題:原理上不知道怎麼處理,沒有具體的實施方案。
工程難點:雖然有具體的實施方案,也明白其中的原理,但是數據規模太過龐大,導致單個節點不足以在有效的成本和規定的時間內處理完所有的數據,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。
因此,大數據並不僅是數據量大,而是一個包含了數據的獲取、傳輸、存儲、分析的技術與架構。
Last updated