2018年,一家進行資料探勘與數據分析的私人公司劍橋分析(Cambridge Analytica),被控不當使用5000萬Facebook用戶數據資料,用以影響2016美國大選、英國脫歐等重大事件。
此事件沸騰一時,讓Facebook股價大跌,面臨創立以來的最重大危機,創辦人馬克祖克柏(Mark Zuckerberg)親上火線至參議院司法委員會說明,也在後續進行了一連串的政策改革,所造成的影響至今仍餘波盪漾。
今年7月,影視平台Netfilx推出記錄片《個資風暴:劍橋分析事件》重現事件細節並找到兩位當事人陳述觀點,再次引起熱烈討論。
QSearch做為以社群數據進行核心服務的數據分析公司,在全球對社群平台及數據應用掀起不少撻伐與禁止聲浪的同時,我們始終認為相關數據的應用,當然須受到一定程度的道德及法律規範,然而在對於這些資料應用與分析,在未有更深入的了解前,實在不需要有過多的恐懼與獵巫行為。
在代表我們對外立場的公開Blog上,以下就由創辦人周世恩,闡述環境背景與發表對相關事件的看法,並揭開社群資料的用運方式,進一步說明如何在商業模式上變現,希望大家能對這個產業有更深入的理解。
(文/周世恩)
5年前沒人在意的社群數據,現今人人都在在談歸因、談精準廣告 – 從劍橋分析事件談起數據分析與QSearch的發展沿革。
劍橋分析事件,雖然有些點有爭議,我認為整個引爆一發不可收拾的環境因素是:
?川普:306張選舉人票(公民投票總票數62,979,636張,45.97%)
?希拉蕊:232張選舉人票(公民投票總票數65,844,610張,48.06%)
如果以台灣選舉票票等值制度去看,應該是希拉蕊當選。可以想像不滿的人超過一半,加上臉書的營收瘋狂增加,各家媒體廣告收入持續萎縮。可想而之媒體的串連與不滿的受眾匯聚在一起帶來起來的衝擊,會讓臉書跌掉多少股價。
.
無論是否透過污名化數據分析,或者是說人家作弊,我認為是一群學習力相對慢的群體在反撲,因為他們掌握有效率的工具落後。
如果當時川普的公民投票總票數超過一半,這把火應該難燒起來,看看歐巴馬,他也是用數據、統計來制定競選策略,當時工具可能已經逐漸成熟了,可是歐巴馬時代就沒有引起這麼多爭議。
我們始終堅持數據分析是做事的手段之一,而不是目的。數據分析在二次大戰時期早已如火如荼發展,其中近年的社群數據分析,我更是非常晚起步的,只是我和夥伴瘋狂投入在其中,並持續追求卓越。
2004年Facebook成立,2008年開心農場讓Facebook在台灣發揚光大,往後在年輕世代滲透率大量增加,直至2014年高齡用戶數持續上升手機更普及、吃到飽的費率狂降、雲端服務普及都大幅助長了社群媒體興起的趨勢。
看完電影《個資風暴:劍橋分析事件》時,其實有點羨慕他們,我們有一群人也在2013-2016年發展相似的技術與應用,雖然收集的資料看似很淺,但透過一些處理,應該有得到相同價值的資訊,但是就沒有辦法跟劍橋分析收到一樣多的錢。
當時才23歲的我,只能怪自己年輕,資歷與經驗不足,活像個實習生,能做的就是把數據分析的發展潛力推到極限,反正一次次分析的機會很難得,盡力做吧。
以 QSearch 來說,當時在2014年切入的商業市場服務時,還多次與法律顧問團隊討論「個資」,共同探討數位人格的分析應用及相關法規規範。以當時時空背景下,根本沒人在意,相關立法單位光是要了解這技術背後的影響力,解釋就要花很多時間,這也造就整個法律調整進程非常慢。
而到一個競選團隊的成功是來自於各方努力,透過數據,更有機會把團隊「歸因」更能算得清楚。何曾有人認真看過一次次戰場中,認真盤點相關工具做了怎樣的精進?
想不到5年後的今天,大家都在談歸因、談精準廣告。
從你看到的廣告,談網路行為數據如何實際被應用?
有沒有印象逛過一個電商平台,而最終並沒有消費,頁面切回到社群網站上或觀看新聞網站時,廣告版位滿滿都是該電商的產品資訊。
這是再行銷技術(Retargeting),透過 Cookie 等機制追蹤你,最大的關鍵在於你在逛電商的瀏覽器,同時已經是登入 Facebook/Google狀態。
而電商平台工程師有在電商網頁內埋程式碼,當你沒有購買時,會觸發程式碼通知Facebook/Google,說這個 Cookie 的人沒有買東西,而由於 Facebook/Google 知道 Cookie 是對應哪個用戶,因此可以做到廣告受眾歸戶。
當廣告商(通常是電商),再投放廣告時,可投放給那群被歸戶為沒作購買行為的社群用戶。通常這種廣告成效很好,因為這些用戶對這些產品已經建立某種關係,透過再行銷技術「提醒」這些用戶要記得買購買,轉換率也相當不錯,根本是電商必備的廣告受眾設定方式。
實際的操作情況是如何呢?由於這些數位廣告平台支援結合年齡性別等複合條件,因此你在投放廣告時,可以設定成「已瀏覽某產品頁面」且「女性」且「25歲」且「住新北市淡水區」且「用iphone上網」的方式,那廣告文案呢?
(1) 可以是一般圖片貼文,如果那個人手抖了一下不小心對廣告貼文按讚,點開按讚的ID就知道這個用戶有很高的機率是「已瀏覽某產品頁面」且「女性」且「25歲」且「住新北市淡水區」且「用iphone上網」,有了這些資訊能幹嗎呢?
如果你想的到就有潛力追上劍橋分析團隊,如果沒想到就繼續看電影吧。
(2) 如果廣告商放的是一些導購、導流連結,後續該用戶在做了消費,雖然用戶沒有直接在結帳等頁面填寫年齡性別,可是廣告商知道在這個時間點,透過這個特殊的網址進來的用戶,一定是「女性」且「25歲」且「住新北市淡水區」且「用iphone上網」,因此在結帳時就順便標記該交易紀錄是這些個人資料。
一點點資料累積沒什麼,像雪花一樣。若持續累積,那是會造成雪崩的。山腳下的城市面臨很大的威脅。
只要有錢與有心,加上高級的數位廣告工具,你可以知道每一個User ID的年齡性別興趣、是否是蔡英文的粉絲、是否是中國時報的粉絲、是否是柯文哲的粉絲。數位廣告工具是高效率的工具,針對每個現形的User 貼標籤,特別是滲透率越高的工具,越能夠進行各種社會實驗。
舉例來說,你可廣告受眾根據年齡性別細分,測試看看每個中國時報粉絲在各年齡層各種性別的用戶看到反送中訊息是怎樣的反應。也可以比較每個自由時報粉絲在各年齡層各種性別的用戶看到反送中訊息是怎樣的反應。點擊率的消長、點擊數的消長,這些數值大小多寡都可變成數據分析的產出,最後變成 Benchmark。
通常會出大事,都是高效率的工具被瘋狂使用。
.
部分數位廣告工具有類似 Custom Audience(自訂廣告受眾)概念的服務。
還記得2013年,Facebook 推出了 Custom Audience,可以上傳 Facebook User ID ,因此你可以精準到下廣告指定給某一個人,我還記得團隊夥伴在我生日那天硬投各種客製化廣告祝賀文給我…..。
而後 Facebook 調整 Graph API 從1.0 變成 2.0,最小 Custom Audience Size 從1人變成20人,又變成 100 左右的樣子。
Graph API 1.0 的時代 (2015年前),
當時有意義的 User ID 從哪來有很多種方式,像是在公開貼文按讚的清單。電影《個資風暴:劍橋分析事件》提到可以透過 Friend API 的授權拿到朋友的關係鏈,但是如果不透過 Friend API,其實爬大頭貼那則貼文底下的按讚清單,某個程度也算是獲得 Friendship 的資訊。基本上不用超準,只要夠準就好,而且透過大頭貼按讚行為,還可以比較真實反映出人與人之間是否活絡。
再舉個案例,「發現某個男生,都在女友每則文章按讚,究竟是否有勁敵出現呢??」因此透過工人智慧,你也可以找出潛在對手。
然而即使透過強大數位的廣告工具,能讓用戶的個資現形但還是有一些商業需求尚未被滿足,像是:
- 不是每一個用戶都會現形
- 因為一些設定上的限制,導致在收集資料時,無法精準「歸因」,或者資料被弄髒。
該如何用簡單的方式去計算每一個用戶的潛在屬性呢?
【物以類聚】的想法,我們假設有相似背景、相同習慣的人應該有類似的行為,因此反過來推測,有相似行為的,很可能具備一些相似背景與習慣。這邊的習慣可能是按讚習慣、訊息接收習慣。
.
#協同式推薦系統就是運用這樣的概念,Netflix 發現 X 用戶看過 [A,B,E,F] 影片,Y用戶曾看過 [A,B,F] 影片,Netflix 可能就會推薦 Y 用戶 E 影片。光是靠這樣的推薦,就可以有初步推薦的成效,然而這樣還是有一些進步空間,數據分析師又繼續增加各種特徵來提升推薦效果,目標就是希望用戶花更多時間在Netflix 上。
.
Facebook 的塗鴉牆也是用類似的概念去推薦貼文給用戶看,希望用戶花更多時間在 Facebook 上。
.
透過粉絲頁數據後台,或者是廣告數據後台,你可以看到某段時間內與粉絲頁互動者的年齡性別分布。可以這麼解釋
.
「原來是這些 User ID 造就了這些年齡分佈」
「原來是這些 User ID 造就了這些性別分佈」
「原來是這些 User ID 造就了這些居住地分佈」
「原來是這些 User ID 造就了這些…..」
.
剛好同樣概念可用來分析每個網站造訪者屬性。
Google Analytics (一個著名的網站流量追蹤工具),現在 Google Analytics 支援分析特定網站或網頁的年齡性別分佈,可以這麼推估,喔!原來是這團瀏覽者( 這團 Cookie ID ) 造就了這些年齡性別分佈。
假設某網頁的性別分布是 95%女性,那些 Cookie ID (也就是那些瀏覽者)有很高的機率是女性。如果該網站不是一頁式網站,像是媒體還很多網頁可以看,就有可能過各網頁的瀏覽行為交叉比對,來判定這個 Cookie 是不是女性。
以上述的案例,如果全猜所有用戶為5%,有可能只錯5%,如果您的商業容許一些不精準,就可以停止進行更精準的計算了。
上述提及的交叉比對,用案例來說明:
X用戶(某個Cookie ID)打開瀏覽器逛了某電子商務商品頁面A,又逛了某電子商務商品頁面B,根據 Google Analytics 後台,頁面A的用戶男女比為 40:60,頁面 B 男女比為 80:20。由於兩次瀏覽為獨立事件,有一演算法,大致可以這樣推測 X用戶是男女生的分數分別為:
S(?) = 0.4 * 0.8 = 0.32
S(?) = 0.6 * 0.2 = 0.12
.
很有可能 X用戶是「? 男性」,最後如果您的電商平台的結帳頁面有收錄身分證還是一些個資,可以驗證 X用戶 是否真的是男性,這算法簡單,準度又讓人驚艷。
.
後來根據這樣的技術, QSearch(Instant Search) 於2017年團隊開發相關演算法,能在 3-5分鐘內將上千萬個 Cookie ID 的潛在年齡性別數據計算完,同時也實驗出大概要多少資料量才有比較精準的結果。
.
至於精準度,當然資料越多越好,更多對於每一個使用者而言,有更多使用者行為,套用上面那個計算式有機會精準推測一個用戶的潛在屬性,像是可被明顯歸類的年齡、性別、居住地。
政治傾向也能透過行為數據計算。
節錄至解釋:關於天下雜誌「立委臉書洩漏的祕密」一文的研究方法。
其實很多屬性是沒有很明顯的 1 與 0 之分,就像政治意識型態有不是非藍即綠、或者是非統即獨,政治傾向更接近一種光譜,每個人可能都在光譜中的不同位置。
運氣非常好,2016 年與一些中研院資訊所陳昇瑋研究團隊,嘗試根據使用者行為將意識型態量化。先行把一些粉絲頁根據客觀方式標記為綠色、亦把一些粉絲頁根據客觀方式標記為藍色。
你可以建立一個超大的矩陣,對一格子,計算每一個粉絲頁的 重疊使用者數,那時候2016年,台灣大概 2016年約 450個政治人物粉絲頁,你會得到一個 450×450個關係。
我們將它表達為一個450×450正方形矩陣。
有些粉絲頁互相重複的用戶偏少,物理意義上表示該兩個粉絲頁沒什麼交集,很有可能比表示該用戶分屬在兩個不同的同溫層。
我們將這矩陣用高中旋轉座標軸的概念,轉個方向看看,實際套用的演算法是主成分分析(Principal Components Analysis),但這個矩陣是 450 維度的空間,視覺上無法呈現,只好用數學方法來表示。
運氣很好,研究團隊發現整個大家按讚狀況,主要受到兩個趨勢影響,也就是這 450×450個 點位在其他438個座標軸看起來就是擠成一團。
當轉成其他座標軸來表達時,發現偏藍的粉絲團自成一團,偏綠的粉絲團自成另一團。最後稍微呈上一個倍數,調整一下落點,從目前計算的數值範圍,變成 -1 到 1 之間的數值。
當每個粉絲頁因此給予意識型態分數時,就可以根據每個用戶按讚關係鏈推估每個用使用者分數。有很多種推估用戶意識型態的分數,由於計算成本,用下面的做法舉例:
某 X 用戶按了蔡英文粉絲貼文讚、按了洪秀柱粉絲頁讚、也按了 X 用戶了李應元粉絲讚,則該 X 用戶的分數為:
蔡英文粉絲頁意識型態分數 + 洪秀柱粉絲頁意識型態分數 + 李應元粉絲頁意識型態分數
對於每一個用戶,你都得到一個意識型態分數。分數越高可能是偏向某一個意識型態,分數越少可能是偏向另一個意識型態。
整合第一種方法與第二演算法,加上少量標記,可以快速標記一個用戶是不是比較喜歡 A 品牌,還是比較喜歡 B 品牌。
我看了一些媒體網站都埋一些廣告聯播網的版位,現在大概廣告聯播網比較能能耐跨越藍綠,跨媒體網站作更全面的資料收集,將瀏覽行為套用這樣的數據分析方法得知各種品牌愛好程度分數(Mind Share),將 DMP 弄得更豐富。
不見得要提供填問卷讓用戶資料才知用戶特性。
雖然 Google 沒有直接透露你的個資,但還是算得出來。
雖然你也沒告訴 Google 等廣告商你的政黨傾向,但還是算得出來。
該如何將數據變黃金?數據變現實務端的流程。
過去5年,因為朋友給予戰場與實驗場域,讓我能持續保持對數據敏銳度,從他們潛在需求中,找到用數據解決問題的方式。如果數據沒有辦法解決問題,就用數據解決有問題的人。
執行數據分析的流程大致長這樣:
- Business Understanding:先搞清楚客戶產業的痛點問題,通常能解決問題,離資料變現不遠了!
- Acquire Data:再針對對應的KPI或會牽扯到的環節進行流程盤點,以及這流程中各環節的資料是否能拿得到。
- Understand the Data:收資料後,要確認是否與 Business ️ Understanding 有合理連貫在這其中?如果與 Business ️Understanding 的關聯性沒有辦法有效說服他人,那建議從第1步再來過。
- Process Data:通常數為行銷等情境,是能靠 Excel 能搞定,反正把有效的資料中,取你要的範圍吧。
- Analyze/Model:分析!看看分佈,建立Model,用適合的演算法、程式庫來處理它。進階一點還會用機器學習工具建立Model。
- Inform/Deploy:分析完就算是爛尾也要把報告做出來,機器學習工具學出來的Model,可能要從訓練的階段部署(Deploy)到預測的情境內。
照理說在 Understand the Data 階段,所有參與此專案的人,對於資料要有同等級的想像,以免進入到 Inform/Deploy 被退貨的門檻超高。
最難表達的是機器學習會學出成什麼樣子,你無法直接告訴客戶說準確率會有多少。很有可能發現你收集的資料雖然跟 Business Understanding 高度連結,但資料對於特定目的鑑別力不足,因此在建立模型上很容易「歪掉」。
那麼,當數據變現的場域是在網路社群上呢?
而更進一步談到QSearch的核心能力,社群數據分析上在各種前人的實驗,已經大幅收斂到固定的流程,以下流程更像是社群分析白皮書:
- 首先看討論量體大小,以反送中討論為例,如果回到2年前,根本就沒有這個字的討論聲量,有量才有細看的意義。
- ️ 再來看時間推移的討論量體消長(不管是貼文數、按讚數、分享數、憤怒比率等),是否每日有穩定的聲量。
舉例來說,某品牌每天都有一定的發文量,顯然從這樣的資訊,你得知背後可能配資源在社群上。如果你是這品牌的競品,同時也有經營社群,一定會做比較,但更重要的是,你能否根據你的狀況當作參考值,去預估對方配置資源,甚至都該對自己做實驗,當你給予自己的團隊更多資源時,能有多少空間?
高雄韓國瑜市長在1124 選完後聲量到過年前,都還可以撐著一個很可觀的量,覺得很不可思議。這時候自己敏感神經就會思考,是什麼樣的策略布局,能在網路上持續撐起聲量?看看各政治人物,選完後幾乎都消音,能持續性撐住聲量,令人歎為觀止。
- 將聲量體大的議題項目進行初步歸納,透過已知的合作關係或一些常識將組織及個人KOL的訊息量進行分類。開始會有一些探討:這些KOL的發文是自己花錢要求的?還是他們主動討論我的品牌?
再來如果是看競爭對手,身為自己家的執行端有認識對方的執行端嗎?或者是否直接認識KOL?可以探聽是否有刻意「人為操作」驗證自己的猜想。數據分析的過程很多時候是在驗證自己的猜想,多次的實驗,細緻紀錄每一個聲量的「Why」都有能意義的診斷出來。多數情境下硬要把每一個用戶的屬性反組譯回來,有點是太 Over 。
- 如果有更多資源,要稍微看一下其他資料源,還是要看一下市調公司的報告,或者是民調數據,可能各家民調數據起起伏伏,重要的是各家的民調數據隨著時間變化是否「趨勢一致」?有沒有共通點?
我有時候看一些媒體在選後說「選前某一天預測哪個候選人會當選」是神預測,這種沒有什麼呈現時間起伏的變動說明,只針對單一時間點的資料來說明,只能說運氣好猜中了。非常建議用民調變動趨勢對照一下同一時期社群數據是否有相似的變化,彼此是否有時間差?差幾天?都能讓數據有意義,同時讓確認社群更即時的數據能補齊做民調的空窗期。
- 隨時要提醒一下自己為何要做社群數據分析,到目前有辦法做決策嗎?你還記得為探勘資料嗎?下一步 Call To Action 是什麼?
舉例來說某品牌推廣新產品要找網紅,透過某分析工具將網紅根據某個指標進行排名,可能是什麼C/P值當作指標之類的,反正從第一個開始聯繫,扣掉被打槍的,持續往後面名次找,直到沒有預算為止。而以2018年選舉為例,相對於2014年,沒有太多KOL參與政治人物討論量,幾乎每個政治人物都只好被傳統媒體擺佈了。
- 前幾年,常聽到要做社群聲量輪廓分析(切記要在有足夠聲量再看好嗎?沒有食材硬要廚師炒菜實在很痛苦)。
顯然是對特定組群溝通時,覺得無法只用一個訊息就產生共鳴,需要針對特定族群進行篩選再溝通,如果透過各種人工智慧與工人智慧針對資料/訊息進行標記,我們可以再次進行更細緻的屬性分類與統計,對於一團群體的組成與屬性分佈能有更清楚的了解。常用方法像是RFM。
- ️ 從每一次分析成果,去思考拿到這樣的情報,我可以怎麼做?別人曾經怎麼做,把這樣的經驗學起來。避免出現看到資料呆在那邊,直覺一點的是下臉書廣告進行洗腦,間接一點透過網紅或媒體講故事,或者是內部營運要盡快設定排程,進行調整。
??? 在此感謝一些專家在過去5年來給予很多知識,讓我們沒死在 Business Understanding 上 ???
??? 感謝 Szu-Chieh Jesse Chen ( 只要有人社群顧問 )、 思為策略、 布爾喬亞 Vocal Middle Communications Consultants 、 公視粉絲團、 Condé Nast 、 Meimaii 美賣 、 凱絡媒體 CARAT 、 Greenpeace 綠色和平 (台灣網站) 等各方朋友,讓大家一起看到不一樣的世界。