為什麼互聯網巨頭如此熱衷於A/B測試？

36氪

2021年6月21日下午9:34·11 分鐘 (閱讀時間)

一、A/B測試前身：歷史悠久的對照實驗

今天互聯網巨頭熱衷的A/B測試，其實源於學術層面的“隨機對照試驗”，作為一種方法論，這種對照試驗有著悠久的歷史：

1747 年，為了治療壞血病，皇家海軍的外科醫生James Lind 設計了一項實驗。他測試了蘋果醋、大麥水、橘子等六種不同藥方。
最終發現新鮮的橘子為最佳的治療藥物，儘管那時並不清楚是橘子中維C的作用。
1835年，醫學史上第一次“雙盲實驗”在紐倫堡實現。一位名為弗里德里希的公共衛生官員，為對抗當時頗為流行的順勢療法開啟了一個賭注：將25瓶順勢療法鹽水和25瓶蒸餾水分發給50位雙盲受試者。
最後8位聲稱產生了治療效果，但揭盲後發現，有3位喝的其實是蒸餾水，弗里德里希贏得了賭注。
1935年，統計學家兼生物學家羅納德·費雪（Ronald Fisher）寫了一本名為《實驗設計》的書。在書中，他系統論述了隨機對照實驗的設計原則和統計檢驗的方法，成為實驗設計領域的開山之作。
1944年，在製造原子彈的過程中，曼哈頓計劃的領軍科學家奧本海默，用3種方法測試如何分離鈾235，這一步驟成為整個項目中最關鍵的環節之一。
1960年代，大衛·奧格威用對照測試的方法驗證廣告的有效性——寫兩條不同的文案並要求報紙將其各印一半，同時在文案中留下索取免費樣品的郵編和地址，但樣式不一樣，最終根據實際樣品索取量來觀察哪種文案效果更好。

......

可以清楚地看到，隨機對照實驗作為一種方法論，在現代科學和商業發展中發揮了重要作用。

它本質上能通過控制單一變量的方法來尋找最優解決方案，已經被廣泛運用到工程學、醫學、教育學和多個領域的商業實踐中。

而我們今天要聊的A/B測試其實就是隨機對照實驗在互聯網領域的具體應用。

二、A/B測試，互聯網巨頭的標配

A/B測試——又被稱為小流量實驗。

通常是針對某個功能/UI/邏輯策略等，提供兩種（或多種）不同的備選解決方案，從總體用戶中隨機抽取一小部分流量，分配給不同方案，最終通過實驗數據對比來確定最優方案。

今天，在矽谷和中國的互聯網頭部企業，A/B測試已經成為業務發展的標配。我們簡單梳理下A/B測試是如何風靡各大互聯網巨頭的——

2000年2月27日，谷歌搜索部門的一位工程師進行了互聯網時代的第一次A/B測試——他想知道搜索結果每頁展示多少條是效果最好的，當時默認為10。

實驗是這樣設計的：對於0.1%的搜索流量，每頁顯示20條結果；另外兩個0.1%分別顯示25條、30條。

這次測試從直接結果看並不成功——由於技術故障，實驗組頁面的加載速度明顯慢於對照組，最終導致實驗的相關指標下降。

但谷歌因此獲得了意外收穫——他們發現即便是0.1秒的加載延遲也會顯著影響用戶滿意度。很快，谷歌將改善響應時間提升為高優先級事項。

以這次實驗為開端，A/B測試在谷歌內部快速流行起來。

2012年，據谷歌的首席經濟學家範里安稱，谷歌每年就會開展超過5000次的A/B測試。

亞馬遜早期，工程師Greg Linden曾提出一個想法——在客戶支付時，根據他們購物車中的商品，向他們提供個性化的“衝動購買”建議。

他精心做了一個Demo，但演示後當時亞馬遜的一位副總裁武斷地否決了這一想法。Greg Linden並不氣餒，他業餘時間用三個半月完成了這一功能的開發，並對這個功能進行了小流量的測試。

結果證明，即便是這個極其粗糙、簡陋的版本，也讓實驗組用戶的購買規模提升了17%。

於是，“商品推薦”這個今天司空見慣的功能從此在亞馬遜開啟。

在Facebook，CEO扎克伯格曾公開宣稱：

“在任何給定的時間點，都不會只有一個版本的Facebook 在線上運行，而是有超過一萬個，我們的實驗框架能隨時發現和感知用戶最細微的行為差異。”

在中國，頭部的互聯網企業也都有自己的A/B測試平台。比如字節跳動的Libra、美團的Gemini、滴滴的阿波羅。

張一鳴曾表示—— “即使你有99%的把握某個名字比另一個名字更好，測一測又有什麼關係呢？”

目前在字節跳動，每天同時進行的A/B測試達上萬場，單日新增實驗數量超過1500個，覆蓋400多項業務。截至今年3月底，字節跳動累計已經做了70多萬次A/B測試。

三、為什麼互聯網巨頭熱衷於A/B測試？

互聯網公司大規模運用A/B測試並非偶然，這背後深層次的原因在於，A/B測試是數據驅動理念的最佳落地實踐。它能以最小的風險實現業務的有效反饋。

字節跳動在發布APP的時候，通常會給APP取多個名字，打多個包上架到應用市場進行A/B測試，觀察不同名字的下載率、留存率等指標。

這背後其實是一種尊重客觀事實的決策哲學。

事實上，在矽谷的互聯網文化中，那些靠拍腦袋的決策有一個專有名詞“HiPPO”—"Highest-paid person's opinion"，即“公司收入最高的那個人說了算”。

谷歌的技術專家Avinash Kaushik 曾說：

“大多數互聯網產品都很糟糕，因為HiPPO 創造了它們。”

Netflix在2016年4月的一篇技術博客中寫道：

“通過對照測試的方法，我們確保產品變更不是由最固執己見，和最有發言權的Netflix高管驅動，而是由實際的在線數據驅動，這是我們走向成功的基礎。”

有人會問——A/B測試的決策思想其實由來已久，為什麼直到現在才變得流行起來？

答案是——實驗成本。

在硬件產品時代，產品的開發成本很高，一台電腦如果控制不同變量，事實上它就變成兩台不同的電腦，本質上屬於兩條產品線，而開發多條產品線對於硬件產品的成本是非常高的。

軟件產品時代開發成本同樣高昂，一個版本的Windows要開發數年，一個3A大作開發同樣動輒數年，這樣龐大的開發成本是無法同時進行不同版本的開發的。

同時，無論是硬件產品還是軟件產品，它們從開發、上市到客戶反饋，這個週期是極其漫長的，這樣冗長的周期也讓靈活多變的A/B測試難以大規模應用。

而到了互聯網時代，每一個產品特性都可以快速迭代，每一次迭代都能迅速得到反饋。

開發成本的降低和反饋週期的縮短——這兩重因素無疑給A/B測試提供了極其便利的實踐條件。

為了讓A/B測試的價值得到更大發揮，很多互聯網巨頭還將這項能力開放給C端用戶。

比如今日頭條發布文章的界面，作者可以取雙標題和雙封面，經過小流量的測試之後，推薦系統會自動推薦點擊率高的標題。

Facebook的廣告系統也給廣告主提供了一項組合實驗能力，即客戶可以上傳不同的標題、描述、封面和按鈕。

Facebook自動對這些元素進行隨機組合，形成多個創意進行A/B測試，自動將預算分配到轉化率最高的創意組合上。

為什麼今天傳統的“廣告大師”越來越少了？

因為互聯網廣告在很大程度上不再依靠“大師”的靈光乍現，而是更多地依靠優化師每天測試無數版文案和素材，甚至很多文案是機器生成的。

四、如何利用工具做好A/B測試？

我們在上面的部分了解了A/B測試的原理和意義，很多公司會問：我知道在增長日益困難的今天，A/B測試是一個好東西，那到底應該如何付諸實踐呢？

的確，A/B測試的實踐並不是一個簡單的過程，它比很多人想像得要困難，這個困難體現在幾個層面——

首先，需要確定A/B測試的關鍵環節。A/B測試到底測什麼的問題，即企業必須清楚哪些環節是推動業務發展的關鍵，在關鍵環節上進行試驗。

如果找不到關鍵環節，在無關痛癢的環節上，無論做多少A/B測試也是徒勞的。

其次，需要確保A/B測試過程的科學性和合理性。比如控制單一變量，即確保實驗組和對照組只有一個關鍵變量是存在差異的；

比如確保流量分配的均勻隨機，即實驗組和對照組的流量是完全獨立的，不存在互相影響的關係。

最後，還需要確定合適的評價指標。

評價指標通常不止一個，是看A指標還是B指標？過程指標還是結果指標？短期指標還是長期指標？單個指標還是多重指標？這些都需要根據業務實際情況審慎決定。

所以，A/B測試並不是一件容易的事。要充分解決以上問題，對於企業而言，開發一套完整的實驗系統是其中的一個方案，但這通常需要較高的開發成本。

另一種方式是使用成熟的第三方測試工具。

比如字節跳動就將其內部的A/B測試技術能力，通過其旗下的To B品牌“火山引擎”統一對外開放。

2014年，字節開始推動A/B測試的平台化，2016年正式建立A/B測試平台Libra。

運行至今，Libra已經在字節的多個產品線驗證了有效性，同時經過多年迭代，在實用性、易用性、靈活性等層面都得到了充分驗證。

火山引擎的A/B測試具體適用於哪些場景？主要有以下幾個——

個性化推送實驗：在運營場景下支持APP個性化推送試驗，比較不同組推送效果。

可視化建站實驗：無需代碼，運營人員就可以直接在頁面上修改文案等元素進行試驗。

多鏈接網頁實驗：在需要轉跳網頁的場景下，可以把流量打到不同的著陸頁上去對比評估效果。

客戶端和服務端編程實驗：從前端的交互、功能迭代到後端的策略和模型優化，支持灰度發布。

火山引擎的A/B測試可以靈活支持獲客、留存、轉化、傳播等各個環節的測試工作。

比如說獲客階段，可以看哪個文案更適合；轉化階段，可以看哪個算法效果更好；傳播階段，可以看哪個互動效果更佳。

悟空租車就使用火山引擎的A/B測試，對整個租車流程進行了對照實驗。實驗的出發點是想減輕用戶對押金的壓迫感，提升轉化率。

悟空租車原有的流程是租金和押金在同一個頁面支付，用戶支付時心理成本較大，於是產品經理設計了一個新方案——延遲支付押金，即先付租金再付押金。

但悟空租車不知道新方案是否奏效，於是就做了小流量的A/B測試。

很顯然，新方案頁面的流程更長，在直觀體驗上增加了用戶的操作成本，然而結果顯示，新方案的整體轉化率提升了7%。

這就是A/B測試的意義。

據我觀察，字節跳動對A/B測試的確有著非常深刻的理解，同時通過內部的歷練和打磨，系統在同類產品中也的確最為成熟，可以切實為企業解決問題。

正如亞馬遜將本來給自己內部使用的雲服務開放出去一樣，字節跳動也希望將自己有價值的能力對外開放。

這種開放是一種增量，既是自己技術能力的變現，也能通過市場驗證反哺團隊的技術水平。

最後總結一下——

A/B測試作為一種科學的實驗手段，能夠幫助企業在多種方案中尋求最優解，以最小的風險前置性地驗證策略效果，為企業規避風險。

作為互聯網時代的企業，理性擁抱前沿趨勢永遠是最優的選擇。

本文經授權發布，不代表36氪立場。

如若轉載請註明出處。來源出處：36氪

TVBS新聞網·1 小時前
陳亞蘭身世之謎曝光　「同父異母」妹妹竟是好萊塢巨星
TVBS星藝象藝人陳亞蘭是台灣原生劇歌仔戲重要推手，更以戲劇《嘉慶君遊台灣》拿下金鐘影帝。而日前網友發現她與英國女星艾蜜莉布朗（Emily Blunt）十分相似，這次電影《特技玩家》首映特別邀請到陳亞蘭出席，陳亞蘭本尊被問到自己與英國女星艾蜜莉布朗相似，她開完笑直說：「其實她真的是我同父異母的妹妹！」
Reactions12
三立新聞網 setn.com·10 小時前
資深藝人錄影突失控！曾國城忍無可忍喊卡　「衝突場面」全被拍
記者蔡維歆／台北報導資深藝人高玉珊笑說為了要上這個節目，很認真收看還戴起老花眼鏡認真答題，超萌反應笑翻全場；不僅如此，沒搶到答題機會還會跟大家喊話：「你們手不要這麼
Reactions114
今日新聞NOWnews·10 小時前
池水抽光好吃驚來台！團隊徒手抓出巨大生物
[NOWnews今日新聞]日本知名綜藝節目《池水抽光好吃驚》在今年3月份來台灣，由主持人田村淳與興大生組成多達1百人的「池水台日隊」，抽光國立中興大學內的「中興湖」池水，結果捕撈出近3百隻生物，裡面甚...
Reactions10
TVBS新聞網·1 天前
大地震！台灣竟「真的移動」爆遠離大陸　9年對比差很大
花蓮0423大地震，爆發規模6.0、6.3強震，到今日還一直震。沒想到，因受到地震影響，台灣竟然會移動！中央氣象署2年前貼出「台灣9年移動」對比圖，遭網友震驚直喊，「離大陸越來越遠了。」對此，氣象署給答案！
Reactions545
三立新聞網 setn.com·5 小時前
白嘉莉4年花2800萬！定居台灣「五星飯店」突曬重大喜訊：始料未及
記者蔡維歆／台北報導深耕藝術繪畫近40餘年的最美主持人白嘉莉，榮獲中國文藝協會將頒發榮譽文藝獎章，她表示：「這是一份殊榮，萬萬沒想到的事，受到獲獎通知信的時候，很驚訝，我內心滿滿的
Reactions25
姊妹淘·4 小時前
盤點「最難伺候」3大星座男！沒本事脾氣又差　第一名簡直是王子病
談戀愛初期，我們常常對彼此的星座感到好奇，希望透過星座了解對方的特質和個性。然而，隨著相處的深入，我們能根據實際相處的經驗，來判定星座特質是否如實展現，哪個星座真的脾氣差？哪個星座又愛碎念？「搜狐網」盤點最難伺候的 3 大星座男，快來看看自己的男友、老公，或是家人有沒有上榜嗎？
Reactions1
中時新聞網·6 小時前
花蓮山海觀大樓「強震裂成X形」住戶拒拆！網揭辛酸原因
花蓮地震不斷，災情頻傳，位於花蓮縣吉安鄉的16層樓集合建築山海觀大樓，外觀出現X形裂痕，結構技師更發出危樓紅單警示，但經住戶表決，仍希望補強結構，不願拆除重建，有網友驚呼「補完後還敢住？」對此眾人嘆氣「很多人畢生積蓄就是那套房子，沒錢了」。
Reactions237
民視·3 小時前
《淚之女王》金智媛素顏大幻滅！真面目「變成男的」網嚇：超像
娛樂中心／巫旻璇報導南韓女星金智媛自出道以來演出過多個經典角色，從《繼承者們》的千金「劉瑞秋」，或是《太陽的後裔》強悍的「尹明珠」，到《三流之路》中可愛的「崔愛羅」，精湛演技擄獲眾粉絲的心。近期金智媛與金秀賢合作主演的《淚之女王》更創下事業巔峰，從演技到外貌都獲得了韓網的極高評價話題不斷，就有網友挖出金智媛過去素顏的真實面貌，意外撞臉男神池昌。
Reactions9
壹蘋新聞網·4 小時前
大雷雨來了！連5天「紫紅色一片」　第二波雨勢更強
【王怡人／綜合報導】這幾天受春雨鋒面影響，台灣的天氣都不太穩定，新竹至彰化一帶要留意短時強降雨、雷擊。氣象署稍早發布新竹縣、苗栗、台中3縣市大雷雨警報，基隆至南投共10縣市大雨特報。
Reactions13
CTWANT·7 小時前
56歲「綺夢」疑遭捕獲　全身暴瘦「剩骨頭」憔悴面容瘋傳…真相太瞎
[周刊王CTWANT] 據了解，張敏當年被王晶發掘，出道不久即成為香港90年代炙手可熱、拍片最多的女星，諸多武俠電影都能見到其身影，又以與周星馳的合作最廣為人知，如《賭聖》、《逃學威龍》、《鹿鼎記》、《九品芝麻官》等，她也憑著《與龍共舞》獲得第11屆香港電影金像獎「最佳女主角」提名...
Reactions15
三立新聞網 setn.com·1 天前
地震防災神APP！「提前28秒倒數」功能神準　網友推爆：蘋果.安卓都能用
生活中心／吳泊萱報導 0403花蓮地震至今餘震不斷，根據氣象署資料，自0403花蓮7.2強震以來，截至今(23)早8時已有逾1100起地震。尤其今日凌晨2點26分
Reactions22
三立新聞網 setn.com·1 天前
花蓮密集群震！一天破200起　學者：地殼破裂了
生活中心／柯美儀報導自4月3日花蓮縣東部外海發生規模7.2的大地震後，至今餘震已破千起，從昨日傍晚到今日餘震頻率飆高，且震央開始往南移也往陸地移。學者分析，這2天的
Reactions52
三立新聞網 setn.com·1 天前
恐怖隱沒帶被牽動？琉球海溝恐有8.7超級強震　專家：台北也會受影響
生活中心／蕭宥宸報導花蓮「403地震」過去不到1個月，今（23）晨花蓮再度發生2起芮氏規模6以上強震，造成花蓮市區「統帥大樓」坍塌、富凱大飯店嚴重傾斜。專家指出，花
Reactions79
CTWANT·10 小時前
專家示警「海溝巨型地震」！台北恐搖3分鐘「大樓會倒得很徹底」
[周刊王CTWANT] 花蓮縣自昨（22日）傍晚5時8分起，又開始連續出現403強震的餘震，且幾乎都是極淺層地震，餘震20天至今已突破1100起，其中凌晨2時26分、2時32分，接連發生芮氏規模6.0及6.3強震，導致原本因403強震已被判定為危樓的花蓮統帥大樓、富凱大飯店，均發生嚴重傾斜。對此，中央大學...
Reactions217
三立新聞網 setn.com·7 小時前
台灣人不買手機了！銷量慘跌破40萬部　關鍵原因曝
記者谷庭／台北報導智慧型手機銷售慘淡，台灣手機市場3月銷量跌破40大關，甚至比去年12月的39.2萬部還少，傑昇通信分析，受到4月初接近一周的清明連假，國人寧可轉增
Reactions29
今日新聞NOWnews·1 天前
花蓮餘震規模小變大　國外地質學者認非典型
[NOWnews今日新聞]花蓮於4月3日發生芮氏規模7.2地震後，緊接而來大量餘震，原在上週頻率才稍降低，但本周再度爆發，自22日傍晚開始至今(23)日中午發生超過200次餘震，且在半夜規模最大來到6...
Reactions23
中天新聞網·3 小時前
汪小菲想開了？直播突宣布「停戰大S」　自爆疑被封鎖：跟她爭沒意思
藝人大S（徐熙媛）日前指控前夫汪小菲婚內出軌、家暴且欠錢不還；而汪小菲3月22日兩度暴衝到大S住家樓下與警局。近日，汪小菲則在直播中談到此事，則坦言是為了家人才一時激動，提到大S目前疑似封鎖他，但他似乎已看開，「跟她爭沒什麼意思」。
Reactions9
三立新聞網 setn.com·4 小時前
高三生「地震APP」破百萬下載　美國13所名校搶著要他！不改付費原因暖
生活中心／鄭餘蓉報導近期餘震不斷，ios系統一款名為「臺灣地震速報」的APP在網路爆紅，下載人數在短短幾天內急速飆升，使得該款APP一舉稱霸下載排行榜冠軍，更令人驚
Reactions10
三立新聞網 setn.com·6 小時前
2波鋒面接力！氣象署示警「雨勢最猛時段」　一週雨區、天氣變化出爐
生活中心／鄭餘蓉報導中央氣象署提醒，本週預計有2波鋒面陸續影響台灣，天氣相當不穩定，其中週五、週六（4/26、27）為降雨最顯著的時段，雨勢可能會比週三（4/24）影響台灣
Reactions3
民視·1 天前
花蓮餘震往中部移動？林嘉愷點驚人關鍵：沿海主震大於陸地
生活中心／巫旻璇報導花蓮縣今（23）天凌晨2點26分、2點32分爆發規模6.0、規模6.3地震，造成花蓮富凱大飯店、統帥大樓全倒塌，半夜一連發生2次規模6以上強震，後續更是餘震不斷，讓許多台灣民眾全被搖醒，甚至被嚇到不敢睡覺，不尋常狀況讓不少人擔憂。至於餘震會不會一直往中部跑，民視氣象專家林嘉愷也替大家解答，「因為陸地的餘震沒有沿海主震大，不會往中部過去」。
Reactions16

一、A/B測試前身：歷史悠久的對照實驗

二、A/B測試，互聯網巨頭的標配

三、為什麼互聯網巨頭熱衷於A/B測試？

四、如何利用工具做好A/B測試？

其他人也在看