NO IMAGE

網址:http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=321007

1.1 廣告的目的
三個主體:advertiser medium audience
廣告是非人員的、低成本的使用者接觸(reach)
品牌(brank)廣告 vs 效果(direct)廣告:離線轉化率 vs 即時轉化
1.2 廣告有效性模型
三個階段
選擇:曝光-廣告位屬性;關注-減少干擾、推薦解釋、符合需求;
解釋:理解-使用者能看懂;資訊接受-認同(廣告位不能只看流量,要高大上);
態度:保持-藝術性帶來的記憶效果;購買-價格可接受(價格敏感vs不敏感);
廣告創意
傳統廣告:幽默( 關注,-理解)、性感( 關注、-認同)、藝術( 保持,-理解)、折扣( 關注, 購買)
線上廣告:仿背景、大標識、簡單
1.3 廣告與銷售的區別
從偏廣告到偏銷售
硬廣(banner)
SEM(搜尋廣告)
導航網站
淘寶直通車
返利網(跟廣告主籤銷售協議:CPS)
只看ROI(return on investment)沒意義:接近supply(媒體)的渠道(關注潛在使用者),ROI低,但對廣告主越有價值;接近demand(廣告主)的渠道(短期交易)相反
1.4 線上廣告的特點
對比
線上廣告:技術和產品驅動(精準定向、計算是核心問題、效果可衡量)
離線廣告:創業和客戶關係驅動
關鍵點和行業協會
展示廣告的標準化:iab
代理商的角色和代理費:4A
廣告主的利益:ANA
1.5 線上廣告市場
media->ad network;ad exchange; SSP(Supply Side Platform)->DSP;agency;advertiser
各方是博弈關係;有資料的一方佔優勢
1.6 核心問題和挑戰
Max ROI(users;contexts;ads)
特徵提取;ctr預測;競價市場機制;受限優化(量與質:保證受眾規模);reinforcement learning(強化學習:explore&exploit);推薦技術
實時索引;nosql儲存;離線計算(hadoop);線上學習(流計算);實時競價
large scale;動態性(使用者興趣);豐富的查詢資訊(context user)
1.7 搜尋、廣告、推薦的比較

搜尋 廣告 推薦
首要任務 相關性 ROI 使用者興趣
其它需求 垂直領域相互獨立 質量;安全性 多樣性;新鮮度
索引規模 十億級 百萬級 億級
個性化 展示和效果ad不同

推薦領域的downstream:把這一次點選跟後續的行為結合起來優化

1.8 投資回報(ROI)分析

eCPM=CTR(a,u,c)*value(a,u)

市場形態
CPM市場:固定eCPM
CPC市場:動態CTR,固定click value
CPS、CPA市場:動態CTR,動態click value
1.9 線上廣告系統結構
高併發投送系統
受眾定向系統
流式計算平臺(日誌收集、反饋、反作弊、計價)
資訊高速公路(內部、外部資料收集處理)
模組:
ad serving; ad retrieval; ad ranking; billing; anti-spam;session log generation;data warehouse;customized audience segmentation; audience targeting; ad management

2.1 常用廣告開源工具
Hadoop: HDFS, MapReduce
ZooKeeper(Yahoo)
Hive(Facebook)
Hbase
Storm(Twitter)
Mahout
Spark
Thrift(Facebook), ProtoBuf(Google)
Scribe(Facebook), Flume: 日誌收集工具

2.2 合約廣告

Guaranteed Delivery
CTR預測
流量預測(forecasting)
受眾定向(audience targeting)
Ad server
Ad retrieval;
Ad ranking; 
Allocation
代表公司
yahoo
sina

2.3 線上分配問題

三方博弈:媒體、廣告主、使用者;或四方博弈:加上代理商

二部圖匹配
ad_list<->(context, user)_list
數學基礎:拉格朗日方法、KKT條件、對偶問題
High Water Mark演算法:利用歷史資料求解serving rate
受眾定向:地域、人口屬性、行為分類

品牌廣告主的曝光有獨佔性

2.4 Hadoop介紹

Hadoop vs Strom
Hadoop:排程計算而不是排程資料
Strom:排程資料
Hadoop vs MPI
Hadoop:使用者級別的計算
MPI:文件級別的計算
Hadoop streaming: 類似UNIX的管道

常用統計模型
指數族分佈:最大似然估計可以通過充分統計量連結到資料;mapper統計,reducer求解引數
指數族混合分佈:一次迭代求解不了引數,使用EM多次迭代
非指數族分佈(梯度分佈):mapper收集梯度,reducer更新引數;多次迭代
Oozie工作流引擎:job排程,用XML定義依賴;有向無環圖;(vs Azkaban:batch scheduler)

3.1 受眾定向

Ad User Context的標籤體系
上下文標籤是一種即時標籤
ad:category, advertiser, campaign, solution, creative
user:gender, age, location, category
context:domain, channel, topic, url
標籤體系主要作用
作用1:建立面向廣告主的流量售賣體系
作用2:為CTR預估等模組提供原始特徵
受眾定向方法
重定向:效果好
地域和人口屬性:效果差,但廣告主容易接受
上下文定向和行為定向:效果中等
網站和頻道定向:中等
hyper-local:精確到小區級別,效果好,但要在mobile上做
look-alike:提供種子使用者,找相似的。效果中上
代表公司
AudienceScience:第三方資料標籤服務 自營ad network

3.2 行為定向

重要行為
Transaction:交易記錄,價值最高
Pre-transaction:商品瀏覽、比價等
Paid search click;ad click
search click; search
share
page view:只代表興趣,對廣告效果影響不大
ad view:負係數,看得越多越疲勞
系統結構

日誌  tagger 使用者標籤 
PV=*Search=*Ad click=*  pv taggersearch taggerad tagger  p(u, t1)=*p(u, t2)=*p(u, t3)=* 

long-term行為定向
滑動視窗方式:對不同型別的標籤,窗長或衰減係數不一樣
時間衰減方式
Reach/CTR 曲線:reach=100%時,ctr=無定向的ctr;只用supply的標籤,曲線肯定不夠好

建立標籤體系的方法
分類vs聚類:聚類的標籤廣告主不易接受
demand端標籤 vs supply端:supply端量大,但效果不好

3.3 上下文定向
page attributes cache
url
keywords
topics
page fetcher & analysis
3.4 Topic Model
有向圖模型
箭頭:條件概率
灰的node:可觀測的
空心node:需要計算的變數
框:可重複的
pLSI; LDA; Gamma-Poisson
求解:VB EM; Collapsed Gibbs-sampling(MCMC, Markov-chain Monte-Carlo)
並行化:mapper上sampling;reducer上全域性update;MPI或者Spark效率勝過hadoop
Supervised and hierarchy: 
Supervised LDA;
Hierarchically supervised LDA
No free lunch thesis
對問題需要先驗的假設,否則任何方法平均效能都一樣
3.5 資料加工和交易

可以類比石油行業
油田-資料來源:搜尋、電商、門戶、線下資料(例如銀聯)
原油-使用者行為:
煉油廠-定向系統
成品油-使用者標籤
加油站-廣告投放
有價值的資料
使用者標識:cookie-mapping
使用者行為:去除熱點事件的影響;越主動的、機會成本越高的、越靠近demand的價值越大
demand資料:使用者retargeting,look-alike
使用者屬性和地理位置:
社交網路資料:好友關係;實名網路的人口屬性資料
Data Management Platform
資料收集和加工-data highway
對外交易能力-data exchange
跨媒體的使用者標籤-tagging
定製化的使用者劃分-user segment
統一對外資料介面-tag management
代表公司
Bluekai:
接入中小網站的資料
產生收益跟網站主分成
不運營廣告業務
細分類別標籤 開放體系的標籤
規避風險:使用者可看到自己的資訊被誰用