重量是什么意思(重量的基本原理)
电商行业工作多年,一直在等待一套理论来系统总结电商运营的本质,总结现象背后的原理,进而解释电商运营中的各种现象。从日常生活中提取智慧,再用智慧指导日常运营,最终形成知识的深度凝结和深度沉淀。写这篇文章是为了引起别人的注意,希望能冷静地建立和检验电子商务运营的理论体系。正所谓辩论出真知,不足之处欢迎猛烈拍砖。
- -
什么是重量?
作为电商运营,我们对权重这个词再熟悉不过了。我们经常听到刷单会减力,改标题会减力,改主图会减力等等。那重量是多少?
先看百科的解释:权重是指某一因素或指标相对于某一事物的重要性,不同于一般的比例。它不仅反映了某一因素或指数所占的百分比,还反映了该因素或指数的相对重要性,即倾向于贡献或重要。
我们常说的权重其实是搜索排名的决定因素。电商、客服、发货、售后等工作相对容易解决。让大家觉得难的是获取流量。如果车流不息,就坐在地上数钱,想一想。想要从平台内的中获得大量的流量,就需要一个好的排名,而好的排名离不开更高的权重。
代王会怎么样?
我们先考虑一个问题——他是怎么解决排代里帖子的排序问题的。我们正在浏览的网站。
作为电商的聚集地,代发的帖子总数现已超过36万条,并以每天100条的速度持续高速增长。戴用什么方法筛选优质岗位?哪些在前面,哪些在后面,哪些会先推送给玩家?这背后的逻辑是什么?
靠派代的员工肯定不现实。com把这30万个帖子一个一个的看完,手工排序,需要很大的人力物力成本。常见的做法是通过算法模型计算出每个帖子的权重,并按照权重值降序排列,这样权重值最高的帖子和“最好的”会最先展现在用户面前。
但是,重量的计算离不开最基本的原材料——数据,那么数据从何而来呢?让我们以Paidai.com为例:
数据收集-重量的基本原材料
用户打开派代。com,看到帖子列表,选择感兴趣的话题,点击进入,浏览阅读。觉得有价值的会收藏,有共鸣的会在评论区打电话,有问题的会在评论区讨论。如果他们觉得作者写得不错,但还没欣赏完,他们也会点作者的头,看看有没有更多的系列文章。以上是论坛中用户的主要行动轨迹。
基于以上行为,论坛会在后台统计每个用户的行为,进而形成多个数据纬度,比如展示次数、点击量、停留时长、收藏数、评论数、访问深度等等。
在用户点击鼠标浏览的同时,论坛将用户的行为记录为计算机语言——数据。从计算机的角度来看,用户对浏览行为如下:
用户打开派代。并查看帖子列表-显示数据是在后台形成的。
选择感兴趣的话题,点击进入——点击数据在后台形成。
在后台浏览和读取停留时间数据。
你觉得有价值就去收集——后台收集数据。
有共鸣的会在评论区打电话,有问题的会在评论区讨论——后台形成评论数。
感觉作者写的很好,没有享受到。我还会点一下作者的头像,看看有没有更多的系列文章——访问深度数据是在后台形成的。
通过对这些数据进行加权,最终得到一个综合权重分数,通过综合权重分数的高低来判断哪些帖子是高质量的,从而给高质量的帖子更多的曝光机会。
至于帖子的内容,是生动有趣还是有嚼劲,电脑没有能力判断。他像个孩子一样站在我们面前,我们看帖子的同时,他观察我们的态度:我们是看的津津有味还是敷衍了事?虽然他看不懂文章,但是他可以通过我们的态度来判断帖子的好坏。
算法是如何加权的?
如何对数据进行加权?让我们看一个简单的例子。
某中学初三有100名学生,一次期末考试成绩如下。通常的排名方式是直接将各科成绩相加得到总分,然后将总分按降序排列(由大到小)。总成绩排名结果是学号49的若愚同学排名年级第一,总成绩按降序排列如图:
现在学校需要选拔三个学生参加全国物理竞赛,成绩优秀的可以保送到名牌大学。如果我们按降序排列,我们可以看到50号邵会获得了物理第一名。
以总分排名或者物理单科排名来决定参赛人员就简单多了,只取总分表或者物理成绩排名表的前三名也可以。但是学校要考虑,一方面要把物理做好,在这次全国物理竞赛中取得优异成绩,为学校争光。另一方面,也要保证学生总成绩优秀,否则,走到成绩一直垫底的清华北大就太尴尬了。这时候就需要考虑物理单科成绩和总分两个数据维度。应该派谁去参加比赛?当需要两个以上的数据维度来共同影响决策结果时,我们就需要用权重来对多个维度的数据进行加权计算,计算出总的权重分值,然后对权重分值进行排序,得到我们想要的结果。
学校主管给出的最终加权公式如下:
加权总分=数学*2+语文*2+英语*2+化学*1+生物*1+物理*5
教学主任认为物理竞赛中,物理成绩最重要,成绩乘以5,其次是数学、语文、英语作为基础科目,成绩乘以2,化学、生物不变,乘以1。即总权重分数等于2倍的标准化数学、语文、英语成绩,加上1倍的标准化生物、化学成绩,加上5倍的标准化物理成绩。
*说明各科成绩在乘以系数之前已经标准化了,因为数据和数据不一样。满分150分的科目(如英语、语文)拿到90分的意义和满分100分的科目(物化)是不一样的。举个例子,英语150分你考了90分,换成100分(相当于100分中的60分)刚好及格。和100分中的90分相比,显然不是一个概念。所以我们需要将数据标准化,将所有科目的最高分和最低分映射到0-1 空的范围内,然后对所有科目的分数进行加权。
标准化数据公式:x*=(x-min)/(max-min)
最终的加权计算结果如下图所示:
按照教学总监的加权算法,结果是前三名的学生被赋予权重,即若愚、景琦和邵会,他们的总成绩分别排在第1、第6和第17位,物理单科成绩分别排在第9、第4和第1位。
这样我们对多个学科进行加权计算得到加权分数,最终得到我们想要的结果:兼顾物理分数和总分;物理最重要;同时,语言外分数在总分中的数量比化学生物学更重要。
物理成绩占加权成绩的39%。
教员加权公式中的权重值可以自由定义。本文采用5、3、1的比例。由于权重比例不同,最终评选结果也不同。这个权重计算小工具可以应用于关键字筛选。关键词的数据维度有很多,比如展示量、点击量、点击率、转化率等。当我们需要兼顾多个数据维度的筛选时,比如寻找转化率高、搜索热度高、点击率低的词,可以通过这种方法为多个数据维度定制权重,筛选出我们想要的关键词。
真实世界排名算法——reddit网站排名算法
上面的学生排名只是一个简单的例子。现实世界中的加权算法是怎样的?
我们以国外知名论坛reddit为例,了解一下算法是如何工作的。(为什么不用国内论坛解释?因为国内论坛算法不公开(可惜reddit现在在国内不能直接访问)。
- -
以下关于reddit网站排名算法的内容转载自阮一峰博客。
原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ reddit.html
reddit网站的排名算法如下:
Reddit是美国最大的网络社区,每个帖子前面都有上下箭头,分别表示“赞成”和“反对”。用户点击投票,Reddit根据投票结果计算出最新的“热门文章排行榜”。
怎样才能结合利弊计算出某段时间内最受欢迎的文章?如果A条100票赞成,5票反对,B条1000票赞成,950票反对,谁应该排第一?
Reddit的程序是开源的,用Python语言编写。排名算法的代码大致如下:
该代码考虑了以下因素:
(1)后t的新颖
T =发布时间-2005年12月8日,7:46:43
t的单位是秒,由unix时间戳计算。不难看出,帖子一旦发布,t就是一个固定值,不会随时间变化,而且帖子越新,t值越大。至于2005年12月8日,应该是Reddit成立的时间。
(2)赞成票和反对票之间的差额x
X =是-否
(3)投票方向Y
y是一个符号变量,代表文章的整体观点。如果赞成票多,Y为+1;如果有多数反对票,Y为-1;如果赞成和反对的票数相等,y就是0。
(4)对z后的肯定(否定)程度
z代表赞成票和反对票之差的绝对值。如果对一个帖子的评价越片面,Z就越大。如果yes等于no,z等于1。
综合以上变量,Reddit最终得分计算公式如下:
这个公式可以分为两部分来讨论:
(一)。
这部分表示赞成票和反对票的差值z越大,得分越高。
需要注意的是,这里用的是以10为底的对数,也就是说z=10可以得1分,z=100可以得2分。也就是说,前10个投票者的权重和后90个投票者(甚至是后900个投票者)的权重是一样的,也就是说,如果一个帖子特别受欢迎,后面你投的越多,对分数的影响就越小。
当赞成票和反对票相等时,z=1,所以这部分等于0,即不产生分数。
(二)
这部分表示t越大得分越高,即新帖的得分会高于旧帖。可以自动拉低老帖的排名。
45000秒的分母等于12.5小时,也就是说第二天的帖子会比前一天的帖子多得2分。结合前面的部分,我们可以得出一个结论,前一天的帖子要想在第二天保持原来的排名,就必须在这一天把自己的Z值提高100倍(净赞成票提高100倍)。
y的作用是产生加分或减分。当赞成票数超过反对票数时,这部分为正,起到额外的作用;当赞成票数少于反对票数时,这部分为负数,起到减分的作用;当两者相等时,这部分为0。这样保证了净票数多的文章会排在前列;票数接近或等于反对的文章排在后面;获得净反对票的文章将排在最后(因为分数是负数)。
(3).
这种算法的一个问题是,对于那些有争议的文章(赞成和反对的票数非常接近),不能放在前排。假设有两篇帖子同时发布,A篇有1票赞成(发帖人投票)和0票反对,B篇有1000票赞成和1000票反对,那么A的排名就会高于B,这显然是不合理的。
结论是Reddit的排名基本是由发帖时间决定的。超热门文章会排第一,一般热门文章和争议性文章不会很高。这就决定了Reddit是一个符合大众口味的社区,而不是一个可以展示小众思想的非常激进的地方。
以上关于reddit网站排名算法的内容转载自阮一峰博客。
原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ reddit.html
- -
加权算法的两个核心要素:数据+算法
淘宝的数据
现在,我们来看看淘宝,回忆一下淘宝平台上买家的行动轨迹是什么样的:
买方的购买意向;打开淘宝;搜索关键词;点击感兴趣的商品;收藏和购买;比较多个宝贝;订单支付;等待收据;确认收货;评估印刷品...
同样,淘宝平台也会将买家的行为记录为数据。截至目前,业务人员统计的数据指标有1960个(数据来源:业务人员-学院-帮扶中心),当然这还不包括直通车等营销工具的数据,还有一些淘宝统计过但尚未公开的数据。
电商平台以购物为主,一切围绕产品。我们专注于产品相关的数据进行分析。《商业顾问》(数据来源:商业顾问-数据检索-商品)中与产品相关的39个可公开获取、可直接下载的数据维度,可归为四大方向:呈现/获取/转化/交易。
数据分类脑图如下:
1.呈现/曝光:产品出现在消费者面前,比如搜索结果页、活动页。
2.访问/浏览:买家一次或多次浏览店铺、产品、评价等等页面,展示就变成了流量。
3.转化/互动/沟通:买家收集、购买、咨询、下单、支付自己感兴趣的产品等等,从流程到订单。
4.交易/评估:付款后直到最终确认收货、退换货、蓝图评估等。,从秩序到金钱。
这四个方向是买家整个购物过程中的关键节点。
淘宝的算法
从前端消费者的角度来看,淘宝有两种常用的排序方式:综合排序和销售排序(价格和信用排序用户体验差,使用频率低,所以这些排序入口的流量小,可以忽略),不同的排序方式对应不同的算法。
销售排名算法:得分=确认的接收人数
销售排序只考察一个数据指标——确认收货数量,具体定义为:统计最近30天内产品成功交易的数量,剔除重复购买,剔除退货和退款,剔除销售活动,汇总计算。
综合排序算法淘宝一直没有公开,虽然很神秘,但也不是没有痕迹。综合搜索主要集中在以下几个方面:
1.文本与类别的相关性:解决了是否可搜索的问题。只要能在销量排名中的关键词下搜索到产品,就说明没有问题。从平台的角度来说,这部分作品需要匹配文字信息(标题、属性、细节中的文字等。)的a .用b .产品ID和c .搜索关键词描述产品。
2.商品人气数据和搜索反馈数据等。:解决了先有谁后有谁的问题,是通过产品模型、门店模型、服务模型、物流模型、内容模型等多个数据维度综合加权计算得出的。
3.作弊检测模型:解决作弊商品过滤问题。
销售排名和综合排名类似于前面提到的物理单科成绩排名和综合加权总分排名。一种是单维度的排序:销量排序,一种是综合多维度的排序:综合排序。单一维度不可思议,只考察了一个数据维度,而综合维度是更全面更系统的考察。综合排序还包括淘宝平台对新品的支持和对飙升品的帮助。
如果说销售排名只是考察一个学生的最终总成绩,那么综合排名就像是在最终总成绩之外,还要考察学生每天的课堂表现,有没有迟到早退,每天作业的完成情况,平时考试成绩等等。
如果有条件的话,对每一个数据指标进行优化,全面系统的提升整体竞争力肯定更好,当然这也需要更多的人力物力。如果条件不允许,作为中小卖家,应该把更多的精力放在销售排名这个维度上。操作只需要关注销量这一个数据指标,其他数据都可以携带,也能取得不错的效果。换句话说,如果电商运营只能做一件事,那就是紧盯销售数据。之所以这样,是因为销售排名简单粗暴,我们的高考可以理解为销售排名,只考察高考总分的一个数据。换句话说,只要能过录取线,写不写作业,去不去上课都不是录取的依据,只有高考总分才是功臣。
数据和算法的运行机制
上述与产品相关的四大品类是买家购物的四个节点,也是淘宝平台排名机制动态运行的四个节点:
1.显示/暴露
2.访问/浏览
3.转型/互动/沟通
4.结束/评估
一个周期是从1到4。
我们取1。展示为起点,将产品展示给买家。如果买家感兴趣,则进入第二阶段:点击访问,浏览产品主图、详情、评价等。如果买家对产品认可,就会进行收款、购买、下单付款,然后完成第三阶段。卖家会组织发货,快递,买家签收。如果没有退货,买家会确认收货。此时,付款资金将从支付宝转入卖家账户,完成整个交易过程,即完成第四阶段。然后,平台根据2、3、4三个阶段买家的数据反馈,决定1,也就是商品展示的位置,然后开始新的循环,这就是淘宝搜索的商业逻辑。
在这个周期中,由于每个产品的数据表现不尽相同,有的产品暴涨,有的产品掉头直下。
运营的核心:控制数据
数据决定了一个产品的生死,那么它是如何影响数据的呢?应该如何管理数据?
运营商的核心工作是控制数据,数据是由购买者的行为产生的,所以要通过引导购买者的行为来影响数据的增长。比如我们要采集采购数据,就加一句“采集采购优先发货”;我们需要点击率数据,我们会制作和优化主要产品图,以满足买家的期望,吸引买家的点击。如果我们要打印评估数据,我们将制定打印奖励的激励机制。
需要达到多少数据?操作员控制数据的目标和参考系统是什么?
与竞争竞争:数据级的根源
当只有一个东西独立存在的时候,没有好坏之分。好与坏都是相对的,都是比较的结果。
身高180cm。个子高吗?身高是相对于身高而言的。和小学生相比,180的身高相当于一个巨人。当站在NBA球员中间,同样身高180的人瞬间变成了“小学生”。
某产品一个月卖5000件。这是一款销量很高的产品吗?看同行,同行是最低一万块起步,还是最高一个月卖一千块。
语文英语三门都是96。这是优等生吗?你看,同学们,不管学生是双百还是90分起步都是最高分。
所有的数据指标是否优秀,没有固定的参考值,比如500或者10000。在淘宝平台,作为对比部门,取同行业平均值作为参考值。每个细分行业都会有不同行业的特点,每个行业的标准也来源于这个行业的整体表现,所以相对公平客观。淘宝的数据有两个参考值,一个是行业平均水平,一个是行业优秀水平。同级优秀是指行业前10%的平均值,假设总共有100人的话,就是前10名成绩的平均值;同级别的平均是指行业前40%的平均,假设总共有100人的话,是指前40名成绩的平均。
同等级是指平台分为7个等级,根据店铺的销量分为1-7级。和打游戏一样,分青铜和黄金。青铜对青铜,黄金对黄金,我们匹配销量相近、水平相同的竞争对手。无论行业市场如何波动,同一级别的商家都是相似的起点,看在同样的环境下谁跑得更快,谁跑得更稳。
产品或店铺是涨是跌,对比两条参考线就一目了然了。举个例子,虽然产品数据每天都在飙升,但是飙升的速度小于行业平均速度,那么你不逆水行舟,不进则退。当以行业平均速度为水平线时,上升速度B在走下坡路,如下图所示。
算法的目的是计算高度。好与坏,数据说了算,数据是增是减,买方说了算。其实数据是成千上万买家共同决策的结果,数据的高低决定了排名顺序。
差距是怎么产生的?
以淘宝平台为例,比赛从展会一开始就开始了。我们以200个展会为例,模拟一下产品是如何一步步拉开差距的。
|显示(曝光):统计时间内,产品在搜索中显示的次数。
这里,我们模拟了搜索结果页面中排名前40的产品。假设买家搜索关键词后会将它们展示在买家面前,买家最终选择其中一个点击。200个显示,换句话说,200个买家同时到达这个页面。所有40个产品都可以看到,但只有一个产品被点击。下面,我们模拟200个买家到达搜索结果页面后选择不同产品的结果。
我们可以发现这也是第1页的位置。同样的200个买家到了这个页面后,每个产品都得到了200个展示的数据(看了40个产品),强势产品的点击量很大(如图,前20),弱势产品连个展示都没有,有的很有钱,有的半饿死。40个产品同时到达第1页的位置,但是不同的数据表现在将决定它们的下一个排名位置。在40款产品中,点击量排名前3的分别是1号产品20、5号产品18、2号产品16,对应的点击率分别是1号产品10%、2号产品9%、3号产品8%。
这200个展示周期后,按照点击率降序排列,得出新的顺序。此时每个产品获取点击率的能力高低,也决定了这些产品未来的命运:把这40个产品的成绩放在全年级进行排名:尖子生分到强化班攻清华北大,优秀生培养攻一本线,普通生尽力考上二本,成绩差的考上更好的院校。重点是这种清华北大学霸和专科生学渣的循环就这样打开了缺口。区分学霸和学渣的,与其说是高考成绩,不如说是决定学霸和学渣的日常表现。
权重回归算法
数据是通过买家的对比产生的,平台根据业务逻辑设计加权算法,最终通过产品的数据表现总结出产品的竞争力。看来年级总分排名不仅仅是分数的问题。分数是学生学习能力的一部分。最后,我们想用分数排名来对学生的学习能力进行排名。最后的排名其实就是综合竞争力的排名。
所有加权算法的原材料都是反映买家真实意愿的基础数据,比如点击量、付费人数等。数据是通过比较产生的,权重根据数据总结竞争力。加权算法的目的是通过数据勾勒出产品竞争力轮廓,并以此作为决策依据,将竞争力强的产品排在前排。
获得一个好的排名并不是最终目的。有一个好的排名只是完成了一半。对另一半来说更重要的是证明自己配得上现在的排名,配得上更好的排名,配得上更高的名次。这是一个自我证明的动态过程。
每个人都是审计员。
代、reddit、淘宝,最终每一个帖子、每一个产品都会被人工一一审核,但这些负责审核的人分布在全国各地,不收任何报酬。其实这些人就是作为用户的你我。我们是平台上负责审核帖子或产品的“工人”,我们是投稿人。平台会设置检查点,收集整理我们留在每个检查点的数据,通过数据加权算法最终确定帖子或产品的质量。每一个用户都“无私奉献”自己的时间参与产品审核,同时每一个用户都能享受到千万用户共同审核的劳动果实,轻松找到“反复审核检验”的优质产品。这个时候,我们就是受益者。这是互联网时代的一大创举,大家在给予的同时也可以享受,是一种互助互利的方式。
通过平台权重算法,越来越多的人不断反复验证到底是骡子还是马。真金不怕火炼,群众的眼睛是雪亮的,真正优秀的产品一定会被挖掘出来。帖子或者产品好不好,时间会给出答案。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 ZLME@xxxxxxxx@hotmail.com 举报,一经查实,立刻删除。