心理学大鳄鱼曹同学发给我一篇论文 A Framework for Bayesian Classification onBanner Images,号称要通过贝叶斯分类法,来对广告banner图片(gif格式)的点击率进行预测。
作者提取了图片的很多可简单量化的维度,包括宽度、高度、透明度、色彩种类、蓝绿红色调比重,gif帧数,gif帧切换速度,blahblahblah。
毫不意外的,实验结果很不理想。作者却很有勇气,仍然把错得一塌糊涂的结果放在了文中。
广告是否能吸引点击需要考虑的因素很多,有些根本就无法量化。比如:审美观、个人生活经验、个人兴趣爱好、文案内容、图片表意。
在结论中,作者自己也承认了他的局限性。可是他继续号称:他的方向是正确的,广告banner一切的一切属性都可以提取出来并量化表示,继而套用他的算法来得到更精确的点击率预测。
这真的就很可悲了。
虽然我自己也有浓厚得挥之不去的理工情结,可我也绝对相信这个世界不可能全部变成壹和零。
coolnalu:
1.非主流的人不清楚,但是一个比较有经验的网民一般会点击设计优雅的广告,或是计划里要采购的产品的广告,或者看起来诱人的广告。这样在不同人中间,或者同一个人在不同阶段对广告的需求都有极大变化。
2.所以如果算法里不引入个性因素和时间窗的话,效果基本如最后一张plot一样呈现均匀分布。
3.假设算法引入了个人因素和时间因素,就意味着对每个用户的过去行为都要有一定记录,譬如他近期点过什么banner,如果是文字的还简单些,测量banner的话就需要用到image mining的算法,貌似也只能做一些简单的文本抽取,因为同类的广告颜色上可能根本相反,譬如一个人想买相机点了Nikon的广告,算法如果是根据颜色预测用户的行为可能就会把Canon避开因为Nikon是黄色Canon是红色。现在有一种趋势就是一个行业几个巨头都占据互不相干的主色调。另外,假设算法成功破解了广告中的怪异字体,想破解广告里的怪异广告词就更难了。
4.虽然理论上任何因素都可以通过某种算法量化,每种算法的准确度暂不提,因素一多,找到最佳组合的算法估计一下子就NP了。当然如果每种因素的估量准确度都能达到90%,用便宜的优化算法也许可以提供有用的信息。但是想达到90%还不知道要多少年呢。
5.所以,短期内应该没什么实用价值。