2015/07/27

大數據 Big Data讀後心得筆記


1.名言佳句:
過去認為資料是靜止的,一旦完成原本蒐集的目的,便不再有用處。但是現在,資料是新的商業生產原料、重要的經濟資源投入,可以創造出新形式的經濟價值。

在這個巨量資料的時代,挑戰的是我們生活的方式,以及與世界互動的方式。最重要的是,我們必須拋下對因果關係的執著,轉而擁抱簡單的相關性。

巨量資料的優勢,會使分析資訊的方式產生三大改變,進而改變我們理解及組織社會的方式。
第一大改變是能鉤取得、分析的資料大為增加。
第二大改變是不會堅持一切都要做到精準。
第三大改變是放下長久以來對因果關係的堅持。

巨量資料,我們可能無法了解某件事情[為何如此],但卻能夠知道事情[正是如此]。

巨量資料的黑暗面,倫理問題:自由意志和資料獨裁究竟熟輕熟重。

2.重點摘錄
 巨量資料的[巨量]不是絕對,而是相對的概念,指的是要有完整的資料集。
巨量資料的概念,就是讓數據的重點從[精確]走向[可能性],要開始學習容忍種種不精確,這是一種取捨,有時候[愈多]會比[品質愈好]更重要

巨量資料時代,我們要忍受下列幾種雜亂:
* 資料點越多,發生錯誤的可能性就愈高。
* 為了結合不同源頭、不同類型的各種資料,資料彼此不一定完全相容,也會增加雜亂度。
* 資料格式不一致,需要先整理過,才能使用。

巨量資料強調資料的完整和雜亂,整個社會就會開始用比以往更宏大、更全面的觀點來看世界,宣告[樣本=母體]的時代來臨。

巨量資料的一個核心概念,就是要以相關性,作為預測的根據。

人類是用因果關係來看世界,人類基本上會用兩種方式來解釋世界:第一是快速思路下的因果直覺;第二種則是慢速、循序思路下的因果判斷。

數位化使得資料化突飛猛進,數位化指得是將類比的資訊轉成機器可讀的格式,光是這個動作本身,還不足以稱為資料化。

今天,我們已經擁有工具(統計和演算法)以及必要的設備(數位處理器和記憶體),面對類似的任務,執行起來速度更快,規模更大,還能運用在許多不同的情境。

 要釋放資料的選項價值,有三種重要方式: 重複使用資料、合併資料集、找到[買一送一]的情況。

巨量資料公司可分為三種類型,分別提供不同的價值: 資料、技術、思維。

 資料價值鏈說明:
1. 資料持有人。
   巨量資料價值鏈的主要成分,就是資訊本身。資料持有人,可能並不是最初蒐集資料的人,但現在握有資料存取權,可自己使用資料,或是授權給他人從中取得價值。
2.資料專家。
這些公司或個人擁有相關專業知識或技術,能夠進行複雜的分析。
3.有巨量資料思維者。
這些人的長處在於:他們能早一步看到機會;就算手中沒有資料,或是沒有能夠處理資料的技術,也或許正因為她們是局外人,沒有資料或技術,反而讓它們的思想觀點更自由--他們看的是可能性,而不會受到可行性的限制。

巨量資料價值在未來從擁有巨量資料思維、技術轉向資料本身,商業模式也正在顛覆。科技公司會調整商業模式,不論風險與報酬都與客戶共同分享。中介機構,由於必須說服別人分享資訊,生活會比較複雜。

巨量資料帶來最大的影響,就是採用[基於資料的決策],來輔助或推翻人們的判斷,會造成傳統專家影響力減弱退位。

在巨量資料的職場來說,最新的基本要求將會是數學和統計學,或許再加一點程式設計和網路科學。在巨量資料時代,除了學科專業知識的深度外,寬度也很重要。

企業規模仍然很重要,但更重要的是資料規模,而不是硬體設備的規範;也就是持有許多大型資料來源,並取能夠輕鬆取用裡面的資料,才是王道。中型企業受巨量資料影響小,會受到擠壓。小型企業可以享受沒有拖累的規模(scale without mass),也就是小型企業不需要有可觀的實質資源,也有很高的網路曝光率,而且只需要極少的成本,就能將創新傳播出去。

巨量資料的風險,除了隱私受損,以及沒有犯行也會犯罪之外,還有第三種危險:資料獨裁(dictatorship of data),也就是開始陷入對資料和分析的迷戀,凡事皆以資料為尊,最後形成濫用。

 管控大數據措施:
1. 首先是[開放]:  關於會影響到個人的預測,必須公開資料及演算法。
2. 認證: 針對某些敏感用途的演算法,必須先由專業的第三方,認證為完善有效。
3.反駁: 必須明訂具體的方式,讓民眾可以反駁對自己的預測。

管控大數據最重要的是,保障每一個人的能動性,才能夠避免資料獨裁的威脅,不讓資料賦有超出合理範圍的意義和重要性。另外一個重點是,我們必須保持[個人責任]的概念。

巨量時代興起的新專業,會是電腦科學、數學、以及統計等領域,這些人能夠審查巨量資料的分析與預測。

巨量資料的三大管控策略: 學習反壟斷法,找出總體原則。
1.將個資保護由[個人同意制],轉成資料使用者的[使用責任制]。
2.運用巨量資料進行預測時,要尊重每一個人的能動性。
3.培養[演算學家]這種巨量資料的審計師。

資料的價值,大部分會來自延伸用途、選項價值,而不是我們平常想到的原始用途。

巨量資料只是一個工具,要熟悉了解其特性和缺點,使用時勿忘謙卑與人性。


在14世紀啟蒙時代後,人類能夠回首過去、展望未來、形塑現在。既然能夠形塑現在,未來就是一張龐大空白的畫布,個人可以根據自己的價值觀和努力,來揮灑自己的未來,做自己命運的主宰。然而巨量資料的預測,又使得未來不那麼開放空白了,會讓人的潛力成了犧牲的祭品,然就如莎士比亞所說的:[以往的一切都只是個開場的引子。],巨量資料的預測,正能讓我們先行補救,以防止問題、或改善結果。

Norman 朱相湶 整理

沒有留言:

張貼留言