A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果

A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果

大家好,我是 applemint 的 Eric。

上次,我們在〈廣告要跑多久〉一文中,說明了統計學中誤差與母體的概念。今天,我們將進一步介紹另外一項與 A/B 測試有關的觀念:顯著 (significance) 與檢定力 (power)。

也許看完上一篇文章,你會開始認為:根本沒辦法執行 A/B 測試了,因為沒有足夠的預算。但做 A/B 測試的目的,其實是為了要在不同版本中的廣告中,找出「更適合」的「最佳版本」。

因此,即使沒有 200 萬預算,只要你的每次測試的預算在 50000 元以上,那麼執行 A/B 測試還是可行的。我們會在下面〈用檢定力與顯著性決定 A/B 測試所需樣本〉說明原因。

結論來說,在執行 A/B 測試前,你必須先知道:

  1. 你能夠容許的誤差範圍如何,容許範圍越小,需要越多樣本
  2. 測試標的預計帶來的成效差異如何,差異越小,需要越多樣本

這篇文章,會透過「統計顯著性」與「統計檢定力」的概念,以及 2 個可以協助計算檢定力的工具,讓沒有統計基礎的數位行銷人員,也能夠輕鬆了解 A/B 組合是否有顯著差異。

為什麼要了解統計顯著性

significance in A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果

我們在〈廣告要跑多久〉一文中曾提到,同樣 10% 的轉換率,100 人中 10 人轉換,與 1000 人中 100 人轉換意義不同。

今天,我們設想另一個情境:點擊率 1% 跟點擊率 2%,哪個成效比較好?

答案是:我們不知道。

你猜對了嗎?如果是 100 次廣告曝光中有 1 次點擊,以及 200 次曝光中有 4 次點擊,我們並沒有辦法得出「點擊率 2% 比較好」的結論。

但如果是 2,500 次曝光中有 25 次點擊,對上 2,500 次曝光中有 50 次點擊,那麼情況就不一樣了,我們有更多的信心可以說點擊率 2% 比較好。

統計學中的檢定

在統計學中,有兩種推論結果的方式,其中一種是顯著性檢定 (significance test),另一種則是檢定力分析 (power analysis)。這與統計學中的「假設 (hypothesis)」有關,我們這邊直接用廣告的例子來說明以上三種概念。

假設

在推論統計中,會出現虛無假設 (null hypothesis) 與對立假設 (alternative hypothesis) 兩種假設。有關兩種假設的詳細定義,可以參考統計學的課程內容,或是網路上討論的相關文章

一般來說,虛無假設指涉的會是「現況」或是「沒有採取任何措施的結果」,對立假設則是我們希望證明的結果。

以數位廣告 A/B 測試的情境來說,我們可以做出以下的假設:

  1. 虛無假設:A 版本與 B 版本的點擊率/轉換率相同*
  2. 對立假設:A 版本與 B 版本的點擊率/轉換率不同

以上是雙尾檢定的例子,關於單雙尾檢定的討論不在本次主題範圍,因此不加贅述。

*「相同」是簡化的說法,比較正式的說法是「A 版本的結果與 B 版本的結果來自同一個母體」。

顯著性檢定

顯著性與檢定力分析

顯著性關注的議題是:我們根據觀察結果所做出來的推論,有多少機會可能是錯誤的拒絕虛無假設。以上述的例子來說,就是代表「明明點擊率相同 (虛無假設),但我們說不同 (對立假設)」的機率。

統計學中最喜歡用的例子,是「明明無罪 (虛無假設),卻被判為有罪 (對立假設)」的情況,這種錯誤在統計學中,稱為 Type I Error。

顯著性檢定的結果通常會用 p 值 (p-value) 或 α 來表現,一般的標準要小於 0.05,即代表我們錯誤拒絕虛無假設的機率低於 5%。

檢定力分析

根據我們觀察到的結果做出的推論,正確拒絕虛無假設的機率。

如果是根據原始定義的話,是「沒有錯誤接受虛無假設 (β) 的機率」。

以我們前面提到的例子來說,就是「沒有明明有罪,卻誤判成無罪的情況」、「不會明明點擊率有差異,卻說點擊率一樣」。

一般來說,我們會希望統計檢定力在 80% 以上。

以簡化的方式來理解,就是「我們希望對 A 版本與 B 版本點擊率/轉換率不同的推論,有 80% 的機會是正確的」。

在了解統計學中「檢定」的三個重點後,我們接下來就要說明如何將統計學的概念,落實到廣告的 A/B 測試上。

評估具有統計意義的 A/B 測試

規劃 AB 測試

在執行 A/B 測試時,我們需要解答兩個問題:

  1. 從這次的實驗結果來看,A 版本與 B 版本是否有明顯差異?
  2. 從過去經驗來看,新的測試應該需要多少樣本才夠?

以下將分別說明:

A 版本與 B 版本的顯著性測試

我們可以利用 AB Testguide 提供的工具來檢測兩組廣告或兩組受眾之間的差異是否達到顯著。

以前面的例子來說,當我們的樣本數分別只有 100 與 200 次曝光的時候,我們會得到如下的結果

沒有顯著的結果

兩者之間並沒有顯著差異。

但如果是個別有 2500 次曝光時,便會得到這樣的結果

點擊率有顯著差異

用檢定力與顯著性決定 A/B 測試所需樣本

當我們的廣告進行了一段時間後,我們會希望知道:需要多少樣本來進行 A/B 測試。此時我們就能透過 ClinCalc 提供的計算工具

在進行 A/B 測試時,我們需要選擇的是兩個獨立群組的比較。由於點擊與轉換只有兩種結果 (點/不點、買/不買),因此計算上我們會選擇二分法 (Dichotomous)。

決定比較的群組與資料類型

我們預計這次的測試,要讓點擊率從 1% 改善到 2%,因此 Group 1 填寫現況的 1%,Group 2 則填寫預計的 2%。

輸入預估改善的幅度

計算後得知,我們的測試各自需要曝光至少 2,318 次。

透過顯著性與檢定力回推樣本數

因為是範例,所以我們使用了較極端的情境。如果是一般點擊率的差異 (1% 與 1.1%),保守預估應該要各自曝光 163,095 次。如果以 CPM 300 元台幣來算的話,需要 48,928.5 元的預算來執行這次測試。

結論:樣本數不足的差異都沒有意義

透過今天的文章,我們了解到點擊率 1% 與點擊率 2%,在不同的曝光次數底下,意義完全不同。

利用上述的工具能讓我們知道,當我們希望測試 1% 到 1.1% 之間的點擊率差異時,預計需要投入多少預算、曝光多少次,才能得到有意義的推論。事實上,不論是 Facebook 的 A/B 測試功能,或是 Google Optimize 在計算轉換率差異時,也都是透過顯著性與檢定力,來判定兩種版本是否有「有意義的差異」。

因此,如果想要執行 A/B 測試時,了解自己「能夠接受的誤差範圍」非常重要,唯有將誤差納入考量,才能正確的判讀測試結果。

本次的內容,一方面是為了向各位公開 applemint 實際上會如何判讀客戶的成效,另一方面則是希望透過公開的方式,讓我們的服務品質能夠受到公開的考驗。因此如果發現任何計算或觀念有誤的地方,歡迎隨時與我們聯繫,你們的建議會是我們改進的動力。

如果希望隨時掌握最新的數位行銷文章,也歡迎訂閱 applemint 的電子報。我們每兩週會發布精選文集,讓你隨時掌握 applemint 的最新文章!

附錄:部分數值的實際計算方式

這裡附上為了進一步了解計算過程,所需要理解的數值計算方式,給有興趣的人做參考。不必了解附錄全部的內容,也能夠藉由上述的工具進行初步的估算,因此如果自認對於數學或統計有排斥的朋友,可以直接跳過這一部分。

「點擊率」的平均值

我們來設想以下的情況:A、B、C 素材的點擊率分別為 1.2%、0.9% 與 1.05%,請問平均的點擊率是多少呢?

答案一定不是 (1.2+0.9+1.05)/3。

這是因為點擊率是比例,會根據分母的不同而有變化,因此平均點擊率應該是 (A + B + C 素材點擊) / (A + B + C 素材曝光)。

在廣告後台中,我們便把最後得到的彙總值視為是平均值。也就是說,我們把廣告後台「過去 7 天的總點擊率」,當成是「過去 7 天點擊率的平均值」。

「點擊率」的標準誤差 (Standard Error)

標準差與標準誤的計算,需要先計算觀測值與平均值的離差平方和,也就是計算個別點擊率與平均點擊率的差距。但是我們在廣告後台看到的,是整體成效的彙總值,因此不能直接計算。

由於點擊率是二分法 (點與不點),因此我們可以透過平均點擊率,來計算點擊率的標準誤差。計算方法是:

計算點擊率的標準誤差

顯著性測試

由於我們的點擊與非點擊的人數都超過 10 (在統計學上即是 np 與 n(1-p) 都大於等於 10),因此我們在計算兩組分配差異時,可以用以下方式計算兩組平均值差異的標準誤差:

計算 A B 兩組的標準誤差

由於樣本數量大於 30,基於中央極限定理,我們推定符合 A 版本與 B 版本皆符合常態分佈,因此使用 Z 分數進行檢定:

計算點擊率的 Z 分數

在 Z 檢定中,如果 Z 分數大於 1.96,或是小於 -1.96,便具有統計上的顯著性。

從檢定力推估所需樣本

根據 ClinCalc 使用的計算方式,其估算樣本數的計算方式如下:

power analysis in A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果

其中兩個 Z 分數要透過查表的方式取得。1-?/2 代表的是雙尾檢定中的 Z 分數,以 p-value 為 0.05 來說,便是 1.96。1-β 則是檢定力對應的 Z 分數,以 0.8 來說,Z 分數為 0.84。Δ 則代表變化的幅度,以點擊率 1% 與 1.05% 為例,Δ 便是 0.05%。

參考資料

從這裡聯絡 applemint!

Eric Chuang

相關文章

與我們聯繫