推荐系统中保序回归校准方案
校准目标是:使用户行为的预估值尽可能逼近真实概率值,众所周知,在推荐系统中,很多情况下,我们的点击率通常会被错误的估计(通常会被高估),所以需要进行校准。
一、保序回归
保序:只影响CTR的绝对值,但不影响多条数据CTR之间的相对大小,即不影响商品最终的排序结果
分桶:将所有数据按模型输出的预估值(pCTR)进行分桶,对桶内数据的label(0/1值)求平均,作为近似的真实CTR
回归:通过分段线性回归将pCTR映射到CTR上
二、校准评价指标
1、predict click over click(PCOC)
PCOC指标是校准之后的点击率与后验点击率(近似真实概率)的比值,越接近于1,意味着在绝对值上越准确,大于1为高估,小于1为低估,是一种常用的高低估评价指标。
2、calibration-N(cal-N)
cal-N将样本集合按照自定义规则划分出多个簇分别计算PCOC,并计算与1的偏差作为标准误差。举个例子,将pctr根据值大小划分为多个桶,每个桶为一个簇,计算每个簇的PCOC及其与1的偏差 数学公式:
参考:https://zhuanlan.zhihu.com/p/460061332