26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

本文作者在分析了26万条抖音数据后,得出了以下结论。这次是26W条数据,应该可以?#24471;?#26356;多问题。


本文作者在分析了26万条抖音数据后,得出了以下结论。

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

这次是26W条数据,应该可以?#24471;?#26356;多问题。

和往常一样,先给出分析结论,希望你能引起你的兴趣:

  1. 首次推荐分水岭应该在5000人,点赞不过百基本凉了;
  2. 抖音红利似乎在消失,用户越来越不?#19981;?#28857;赞了;
  3. 15s不一定是最好的,可以试试10s;
  4. 男女比例严重失调,小哥哥的视频更受喜爱;
  5. “生活化”是抖音内容的主体,年轻人乐于表达爱和?#19981;叮?/li>
  6. 90后是抖音的主力军,94年小哥哥小姐姐最多。

下面是正文。

一、数据介绍

数据区间是2018年2月1日—5月10日,历时两个月,累计260968条。采集过程中,对作者做了去重处理,也就是?#24471;?#20010;作者只取了TA的一条视频数据,这也代表着我们拥有26W个作者的数据。

数据包含视?#24471;?#36848;、发布时间、播放数、点赞数、评论数、转发数、尺寸、清晰?#21462;⑹背ぁ?#26159;否包含商品广告、是否包含水印,以及视频作者的昵称、性别、生日、账号创建时间、是否认证、认证类型等数据。

另外,数据均为前端可见数据,?#35789;?#29992;任何违规操作。

二、首次推荐分水岭是5000,请把赞“刷”到100+

做过今日头条自媒体账号的人应该了解,头条的推荐算法是先把文章做小范围推荐,查看文?#30053;?#35813;部分人中的阅读数据,如果阅读数据良好,则会扩大文章的推荐范围。数据越好,推荐范围则越大。

既然抖音是头条系产品,那肯定采用了同样的推荐逻辑。从用户的方便程度来看:点赞>评论>转发,那么点赞作为推荐算法的指标权重应该会大于其他两个。从头条的推荐算法推测,视频应该会先被推荐给一部分用户,如果点赞数达到某个水平,则会将视频推荐给更多的人;如果没有,那?#35789;?#39057;大概率会凉了。

经过不断分段统计视频各播放量与点赞之间的关系,得到了下面这张表格:

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

由于采集机制的原因,我们很难采集到没有被推荐的视频,但就现有的1907条播放量在5000以下的视频我们可以清晰地看到,这些视频的点赞量100以下的占到了94%。那么反过来可以推?#24076;?#24819;要你的视频被更多的人看到(也就是进入系统推荐的二阶段),那么你视频的点赞量至少应该增?#25317;?00以上。

我做了几个视频进行了测试,发布后分享出去让好友帮忙点赞(下文会给出方法),那些在1小时内点赞量突破一百的,播放量在几小时内很快破万?#27426;?#37027;些点赞量低的,则不再被人问津。

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

即便这个结果在测试中得到了验证,但是我却不能给出实锤结论。

首先,目?#23433;?#38598;到的低于5000播放量的数据,大都在5月以后发布,传播时间不够长,或许这恰好是点赞量低的原因;其次,与整体的样本?#32943;?#27604;,这部分数据只占不到1%,没有达到统?#21697;?#26512;的样本数要求。

无论如何,视频的点赞量肯定会作为推荐权重的依据,点赞越高自然是越好的。

三、看似红红火火,但瓶颈似乎已经到来

作者数据包含了账号的注册时间,我把作者的注册时间按照月份统计,发现抖音用户的增长似乎在放缓:

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

从上面的用户注册时间分布来看,抖音用户在2018年1月份达到顶峰,随后开始逐月递减,4月份已经只有3月份的一半!

实际?#24076;?#36825;个数据仍然存在一些漏洞。毕竟存在一种可能,就是新注册的用户不?#19981;?#21457;布视频,而是在注册一?#38382;?#38388;后才开始发布。或者,新注册用户的视频因为还未得到系统的推荐,被我们采集到的概率也随之降低。

如果账号的创建时间不能?#24471;?#38382;题,我?#25250;?#30475;另一组数据。

把视频的发布时间与其相对应的播放量和点赞量结?#24076;?#25105;得到了各月发布视频的平均点赞量。为了去除数据传播?#32972;?#30340;影响,我去掉了5月以后发布的视频,得到各月平均点赞量分布图:

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

数据显示,各月视频的平均点赞数在逐月降低,4月份食品平均点赞?#21487;?#33267;不足3月份的一半。或许是因为视频越来越堵,用户已经?#27103;荊?#20294;无论如何,早期的红利在逐渐降低,想上车的要赶紧了。

四、拍满15s不是最好的,10s更受用户欢迎

目前抖音未公布获得视频超过15s?#32972;?#26435;限的机制,但至少我们知道“优质”是选拔的重要条件,所以在分析视频?#32972;?#26102;,我去掉了?#32972;?#36229;过15s的视频。对15s以内视频的平均点赞情况作了分析,得到以下分布图:

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

数据并不支持我们把视频拍满15s,10s是最好的,13s也不错,甚至11s都优于15s。

由于超过15s的视频数量仅6866条,在样本中占比太少,我就不再给出分析。在相同数量级下(均少于100条),39s、42s、50s和58s看?#20808;?#25928;果不错。

五、男女比例严重失调,小哥哥的视频更受欢迎

统计26W个作者的性别,我发现抖音用户中女性用户数量接近男性的3倍!显然是严重失调。

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

(注:“无”代表用户没有填写性别信息)

从用户组成来看,就很容易理解为什么抖音的带货能力这么强了。从?#20309;?#33021;力来看,女性购买力更强,毕竟大部分钱都掌握在女性的手里。

把作者性别?#25512;?#21457;布视频的平均点赞量结?#24076;?#25105;神奇的发现,小哥哥们的视频竟然更受欢迎!

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

难不成是因为女性用户多于男性,异性相吸?

注?#22909;揮行?#21035;信息的用户有多个视频点赞量超过百万(比如用户@安德罗妮、的一个视频点赞量达到600W),造成了该类别用户的平均点赞量过高,不排除这部分用户均为女性的可能性。

六、生活化的内容是抖音的主流,年轻人愿意表达爱与?#19981;?/h2>

使用新浪微舆情(wyq.sina.com)的文本分析功能,把视频的描述文字做了?#24066;?#21644;情感方面的分析,发现生活化的内容是抖音的主体。

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

对视?#24471;?#36848;文本的?#24066;?#20998;析,动词方面除了“?#19981;丁?#21644;“爱”以外,生活化的“想”、“拍”、“吃”是出现频?#39318;?#39640;的词;形容词方面“快乐”、“开心”、“好看”和“可爱”是抖音用户最?#19981;?#34920;达的感情;名词上“小哥哥”和“小姐姐?#27605;?#28982;已经成为发抖音的固定搭配。

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

整体?#21183;?#26041;面,除了“小哥哥”、“小姐姐”以及“抖音小助手”以外,具备强烈生活色彩的“爸爸”、“我妈”、“弟弟”、“老公”、“我家”这些词同样被高频率使用。

七、抖音是90后的天下,94年是主力军

对作者的出生年龄进行统计,排除掉建国以前出生和?#20004;?#26410;出生的用户,得到如下年龄人数分布图像:

26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

图像已经很清楚的告诉我们:抖音的已经是90后的天下,94年是这其中的核心。不过算算也对,94年出生的人现在已经24岁了(?#19968;?#20197;为14),正是最青春、最?#19981;?#26032;鲜事物的年华。

所以,主打年轻人的品牌可以入驻或者把广告投放搞起来了。

 

作者:喜哥,微信公众号:喜新(ID:noyanjiu)

本文由@喜新 授权发布。未经许可,禁止转载。

题图来自网络

原创文章,作者:金香槟运营,如若转载,请注明出处:http://www.ptffy.club/3387.html

征服者入侵APP下载
安徽11选5一定牛 重庆时时走势图个位 浙江11选5 幻想三国志5 如何赚钱 炒股票融资 七星彩 28号上证指数 白小姐论坛~资料中心 福建快3 打老虎机有什么规律吗 双色球复式奖金对照表 天津快乐十分分布图 河南快3 北京pk10官网开奖记录 湖北体彩11选五开奖结果 qq游戏里的麻将