来源:数据猿 作者:林晓勇
2016年9月1日,由数据猿、星河互联、球秘APP共同举办的《体育大数据·巅峰思享会》在北京星河空间顺利举办。
现场做主题发言的分享嘉宾有:星河互联合伙人王波、球秘APP CEO王岭峰、我奥篮球创始人林晓勇、秒嗨APP高级副总裁魏航。
以下是“我奥篮球创始人林晓勇”的现场分享内容,并由数据猿编辑整理:
我要讲的是篮球以及中国篮球赛事的大数据之路。我奥篮球是一款篮球赛事的线上管理平台,我们有服务号、官网,还有PC端的产品,截止到目前,我们已经接入了全国800个联赛,5000 球队,10000 球赛。我本人是北京化工大学计算机系毕业的,研究方向是数据挖掘,我特别喜欢篮球,同时也是国家一级篮球裁判员。
我今天跟大家分享的内容包括五个部分:
第一个,中国篮球赛事的数据现状;刚才几位分享嘉宾提到了足球领域,实际上篮球的数据也是一样的。
第二个,站在我奥的视角上,分享一下我们的见解:什么是篮球赛事大数据。
第三个,讲大数据,实际上是要有方法的,今天我们要把我们的方法和步骤分享出来;
第四,篮球赛事的大数据步骤,最重要的一点根基实际上是数据采集,如果你没有采集到数据,你有再强的方法也是实现不了的。
第五,我给大家展示一下我们服务过的案例。
首先跟大家介绍一下中国篮球赛事的数据现状,篮球数据不仅仅包括数据统计,我拿一个例子来说明,喜欢篮球的人都知道乔丹,我找到了他职业生涯的数据。NBA是一个职业联赛,这些数据到哪儿都能找到,但是我还能找到乔丹在大学时候的数据,以及他在中学时代的数据。
我们知道,乔丹念中学的时候是在上个世纪70年代,虽然在那个时候,乔丹体育方面的优势已经非常明显,但他还没有成为一个篮球明星,而是一名普通的篮球学生,但是他的数据却被比较完整地记录下来,并且被信息化了。事实上,在美国,上个世纪60年代、70年代,他们就已经开始很详细地在采集球员的各项数据了。
在中国,做的最高的顶级联赛是CBA,CBA使用的数据统计软件是什么?据了解,中国现有的统计软件还是在2005年一个老裁判研发的,至今仍未更新过。那时候还是PC端的产品,已经无法满足现有的需求,因此很多人都在抱怨产品不好,很难用,采集的数据维度不够,但是没有人推进这件事情。
另外,我们讲到职业联赛仍处于这么一个情况,业余联赛也可想而知,中国绝大部分联赛,包括像CUBA,在决赛阶段的时候,会采用CBA那套软件,民间一些大联赛也会采用那套软件,但是绝大部分比赛还在采用国际篮联联合会的一个数据统计表,这个表格有个非常明显的错误,这个错误是个笑话,甚至表格上“篮球”的“篮”字都是错误的,实际上这张表格在中国已经用了几十年了,到现在中国最顶级的大学生篮球联赛的外围赛还在采用这种方式,而且完全没有信息化,而且只能记录得分。
在这种情况之下,中国的篮球就像中国的足球一样,跟国外的差距,不是简单的拼一口气,努力一下就能实现的,而是各方面的综合差距。在欧美国家,在50年前就在收集这种数据,所以我们能看到中国和国外的差距是很大的。
实际上中国的硬件条件差吗?现在来讲中国的基础设施还有球馆、训练设施一点都不比国外的差,虽然球员的身体素质由于先天条件的影响会存在一些差距,但是在硬件条件上这种差距并不大。反而在软实力方面,像数据统计的差距非常大,不是几年,而是横跨几十年的巨大差距,所以中国急需要篮球赛事信息化的解决方案。
下面我讲一下什么是篮球赛事大数据。我们看过一些赛事,观点不一定百分百正确,但也代表了我们的实际看法,要想成就篮球赛事大数据首先要有一个平台,这个平台有两个关键要素:
第一,要有篮球赛事,我们往往讲篮球赛事的时候就是讲职业联赛,数据量大,如果进行深度分析,会出现海量数据。但是我们认为赛事还有很多种,尤其现在走向民间的模式,你不能够忽略。在我们实际接触过程中,发现有很多民间赛事,可能是县里举办的,单位举办的,或是校园联赛,甚至细分到每一个年级,每一个班级都会举办篮球比赛,还有网红比赛等等。他们的赛事跟传统的不一样,记分方法也不一样。要讲大数据,我们除了有顶级联赛之外,民间的所有赛事都应囊括其中,它的数据量是巨大的。
第二个,大数据有很多维度,我们讲到大数据的时候,大部分人第一感觉数据量大,我本身也是做数据挖掘的,事实上,大数据的基础并不在于说数据量是大还是小,海量的数据本身是大数据的基本条件,但不是完全绝对的,小样本也一样可以成为大数据。但是海量的数据是可以起到支撑作用的,尤其像每场赛事都会产生大量数据,再把大量的数据全部集中,实际上数据量非常大。
另外,你还要多维度考虑这个问题,不仅仅是联赛数据,实际上球队、教练员的数据维度都是不一样的,球员可能关注我个人的数据表象,球队可能是关注球队的输赢,教练要观察球员的状态。而联赛,他最可能考虑的角度就是商业化,实际上这里头描述出来的东西,产生的高阶数据,往往不是底层的数据。
数据还要讲究个性化的展示,我们讲了职业联赛像CBA是5V5,但是从我们采集到的数据来看,3v3与5v5是不一样的,举个例子,3v3数据是两分球算一分,三分球算两分,因此从工具角度来讲数据采集的方法是不一样的,因为在3V3的比赛中没有三分球。而民间的比赛,就更有意思了,扣篮可能算三分,这个就不是标准意义上的三分,如果有四分线,他为了强调好看,穿裆进球还要多加一分等等,所以你的数据库设计也不完全一样。
有了大量的赛事,如果你没有进行数据分析,最终是无法实现商业变现的。所以它会产生高阶的数据,比方说我们刚才提到的职业联赛里面的数据,最终会应用到体彩中去,而这就是商业变现的一种方式。在我们的视角里面,我奥篮球是一款给民间篮球赛事提供赛事服务数据统计的软件,所以我们认为如果想要统计中国的篮球赛事大数据的话,第一,不能只讲职业联赛,还得把民间所有大大小小,不同类型的比赛囊括进来;第二,数据一定是海量的。
既然讲到篮球赛事大数据,那么怎样才能实现大数据平台?要如何去挖掘呢?如何把它展示出来?其实蛮简单的,在这里我们把它分成三个步骤:
第一,数据采集,这个阶段是很难越过的,民间拥有那么多的数据,你怎么采集,这个是大难题。如果你采集不到数据,就谈不上分析、挖掘。但是如果你没有数据,数据源不够,现在的数据源是全样本,而不再是抽样的形式,所以你的样本要足够大,那么在这种情况下,数据采集就变成数据挖掘的根基,没有数据采集这步,根本不可能实现数据挖掘、数据分析。我们认为在大数据方法上,第一步你要能够采集到数据。
第二,设计算法,你要设计出算法,把非结构化的,一维数据高阶展示出来。
第三,数据展示,目前而言,数据展示的方法更多是以图表形式呈现的。
从这三个方面,我们也总结出以下几点要素:
第一,数据采集工具必须方便、稳定、智能、差异化,数据采集不能只采集一种数据,比方5v5的数据,就采集不了3v3,这个工具必须要采集有变化的数据,要能够方便、稳定,不能用着用着就挂掉了。就像CBA那套软件,有人说那么高大上的软件,直接拿到普通比赛中去用,这根本就不可能,为什么?PC首先不能到处带,同时它里头的设计都是职业联赛,职业联赛其实很好弄,任何一个比赛,两只球队是固定的,球员是固定的。但是民间篮球赛是非常随机的,举个例子,比如说打友谊赛,上半场我跟那个队打,下半场我跑另一个队去了,数据该怎么采集?临时加个人怎么采集等等,实际那套软件根本就不适用。在职业联赛中,换人、上场时间统计,运动员都要到技术台去申请,说我要暂停,我要换人……但是民间联赛哪管这些,直接就上了,软件肯定就不适用,所以数据采集的工具要更新换代。
第二,数据挖掘算法要高效、实时、准确、平民化,数据挖掘的方法很多,其中每一个东西都涉及到算法,以前你花大量的时间统计职业联赛,但是如果这个工具不适用民间,民间赛事量巨大,它产生的数据比CBA的数据还要大,你的工具就要更新换代,能够处理海量的数据,效率更高。
第三,数据展示形式要丰富、多样、专业、个性化,在数据展示上,我认为是锦上添花的事情,我奥篮球在数据采集这块,已经做了大量的工作和优化。
采集数据
下面我们讲讲如何采集数据,这是我今天的重点分享。数据采集是最重要的根基,没有这一步,后续的数据挖掘是做不到的。对于当今移动互联网时代,什么样的数据采集工具才能够称为数据采集利器,我认为一个产品必须具备五个点,第一,必须要移动化;第二,必须是开放式的,否则的话,有些联赛可能自己研发一套标准,只能让他自己的比赛来用,这不可能产生海量的数据。第三,实时稳定性,虽然比赛是这样的,但是呈现给用户的数据是实时的,服务器要稳定。第四,智能化,职业联赛打完球直接排名,这个事情都能难倒民间赛事的组织者。还有赛程编排,怎么样尽量避免背靠背,这都是非常专业的人士做的,你的工具要做到自动编排赛程,而且是合理的,根据你设置的几个点自动赛程编排好了,对阵图设置好,积分排行设置好。再有就是个性化,民间的篮球赛事是不一样的,要灵活,能够适用不同的赛事。
我奥篮球是移动化的一款产品,这个产品可以应用于手机端,无论你是安卓用户,还是IOS用户,或是平板电脑都可以使用我们的篮球赛事信息化管理软件。如果你想管理一个联赛,都可以通过我奥篮球来实现。另外,我们是非常实时和稳定的,我们已经进行了上万次的检验工作,里面的数据统计都是实时的。我们还为用户提供文字直播和视频直播两种直播方式,供其选择。此外,我们还可以对球队进行数据统计分析。让普通的球队能够像职业球队一样拥有专业的数据分析,包括球队以及个人的数据记录都能被完整地保存下来。
下面我给大家介绍一下我们在数据服务采集方面所做的事情。在采集方面,我们做了大量的工作,截止到目前,我们每个月接入上百个篮球联赛,比赛场数超过一千场。在这里面,我们把几个经典的比赛跟大家分享一下:
新浪3v3黄金联赛
这个比赛今年是第二届,新浪方面主动用了我们的统计软件来做比赛的数据分析。因为是3v3,所以通常是得分打到21分就结束,或者是打满14分钟。之前提到过,3V3是没有三分的,实际上是三分算作两分,因此统计算法是不一样的。另外,我们的软件有小组排行,还有对阵图,能够实时的反映现场比分,这是我们对黄金3v3做的数据统计。
四国邀请赛
我们会为每个联赛设计主页,在主页上面会发布照片、视频以及每场球的数据统计以及排行,另外我们还为无法观看视频的用户提供文字直播版块。
日落东单
日落东单每周的比赛都会采用我奥篮球来记录数据,在我们为他设计的联赛主页上,会出现每周的冠军球队、MOP以及他们的数据统计图。在以前这样的统计是从来没有的,民间的比赛即使打的再激烈也不会统计出数据,而利用我奥篮球就能够非常方便地采集到了。另外,我们还可以生成数据库图片,能够将他们的数据进行挖掘和展示。
我们现在跟贵州省签订了战略合作协议,全省上下推广我奥篮球这套软件,他们要把贵州省建成全国第一个篮球大数据省份,篮协花的力气很大,贵州省篮协的负责人敖老师,他带动篮协使用我奥篮球来记录整个贵州省的篮球赛事。
实际上,我们的软件还有一个功能,能够把工作人员也记录下来。裁判员有哪些、级别是多少、去过哪些比赛、这些比赛的级别是什么样的?这些东西都是要进行归类的,而这些全国都没有进行统计,连最高级的CBA可能都没有统计到。历届比赛的获奖者,也是一组数据,联赛的历史是值得记录的,民间并不能够做到,我们的软件就解决了这个问题。实际上,我们的软件可以针对3v3的数据、专场的数据,还有职业版的数据统计,包括投篮点、进攻是快攻还是扣篮等等全都能记录到,这比现有的CBA数据统计的纬度是要高很多的。刚才讲到记录裁判员制裁的数据,未来在这上面,任何一个裁判员曾经担任过什么职位都能被完整的保留下来,这些都是很珍贵的数据。
中国街球联赛
今天晚上在世贸天阶将要进行决赛,都会利用我们的数据统计记录得分。在这里面,每个人可以生成很炫酷的个人数据海报,我们还有文字和视频直播,让民间赛事有了职业联赛的体验,让球迷可以通过简便的方式来获得高级体验。在任何一个球馆中,只要有大屏幕的话,我们就可以实时显示出各项投篮数据。
姚基金希望小学篮球季
我们还服务了姚基金希望小学篮球季,这是全国联赛,四川、银川、陕西、贵州等等,把全国四百多个希望小学的篮球队聚集在一起打比赛。我们知道在中国青少年,CBA的数据是有的,像CUBA等等都没有,更别提希望小学小孩打篮球的数据统计了,但是数据统计一出来会让你非常惊讶,民间小学有很好的苗子,他们的数据非常漂亮,这种好的苗子未来都是有望可以选拔成为职业选手的。
我跟大家分享一下,现在中国大学里选拔苗子的方式,我是化工大学篮协的会长,我们学校在CUBA里面每年都会参加甲级比赛,教练也是我的老师,他每年都带着我们去参赛,他们每年都会选拔高水平的运动员,怎么选呢?来五个教练员,比如北京联合大学、外经贸以及周边学校的体育老师,每个学校来一个。然后全国拥有体育特长的学生都聚集到北京,每20个人一组,分成两个组,四个队,打比赛,两个小时,然后老师进行打分。大家想想一个球员在上面表现的时间就是二三十分钟,没有任何数据作为支撑,只是通过眼观,通过一些经验,怎么可能一下子分析出这个人,一些好的苗子没有被挖掘出来,一辈子就走不了这条路了。实际上这也显示出这种制度下的一个缺陷,中国的篮球要想说成为篮球强国,如果连数据支撑都做不到的话,那就是一件根本不可能完成的事儿,这和足球是一个道理,不可能通过加油的方式就实现了。
姚明的这个比赛搞了五次,这是第一次拥有数据统计,他希望我们能够把前五届的数据恢复,怎么恢复呢?他们前五届都是采用纸质表,都有留存,我们进行数据恢复,把前五年的数据资料,得分犯规的数据保留下来,有些东西已经丢失了,就不再找回来了。实际上通过这次服务了解到,中国太需要这种软件。
我们服务过的比赛特别多,每天都有新的联赛进来,刚才讲的例子,相对来讲是比较有影响力的赛事,实际上还有很多民间小型赛事也都在用这个工具获取数据。我们工具第一步采集已经做到非常便捷的地步了,你有个联赛,接进来之后,我们教你,五分钟,你就可以自己采集数据了。第二步要做的工作,进行高阶的数据挖掘,在这里面国外有很多先进的例子,我们最初的想法是先把国外先进的挖掘算法拿过来之后,先应用在职业联赛里面,然后个性化、差异化植入到民间篮球赛事里面去,因为他要区别对待。举个例子,像这种职业联赛,他会详细的统计上场时间,而民间的比赛可能不一定详细统计这些,所以要区别对待,不能严格对待。
我跟大家解释一下,高阶的数据,中国CBA那套软件是统计不出来的,但是我们软件出来的数据可以进行二次的开发,产生大量维度的数据,所以在这点我们做了一些工作,我们希望把它平民化,能够让它服务于民间的各种比赛。
讲了这么多,我们想描述的是中国篮球大数据,实际上你没有采集到数据的话,根本不可能进行大数据,今天来跟大家分享,更想传递的是先要有这种意识,不能再浪费知道,我们我奥篮球正在做一件事情,大力的促进民间各种赛事信息化。
我们认为建立健全的全国篮球数据库是构建篮球大数据的基础,实际上中国的青少年篮球到大学篮球、民间篮球、竞技篮球是相辅相成的,软件在这里面又是重要的一环,搜集数据具备重要性和紧迫性。我们希望大家重视起来,在讲大数据都是高大上的算法,实际上这里面没有什么高大上的,专业的人员都知道,大家脚踏实地做好采集数据这个工作,无论你是用硬件也好,还是用软件,还是用笨的方法,但是你会很方便,这一步是很重要的。
我们我奥篮球的终极目标是连接每个篮球梦想,希望能够让每个喜欢篮球的人都能够有个非常好的线上体验,能够像职业球员一样享受他的整个职业生涯,打了多少场球,得了多少分,他的记录,他的数据都可以通过我奥篮球实现。我们现在是一个专业的篮球赛事现场管理平台,接入民间的所有赛事。
我奥篮球的愿景是担当中国业余篮球赛事的变革推动者,三到五年之后,我相信中国篮球赛事大数据准备工作、基础工作、数据采集工作都是会实现的,信息化一定会做到。就像十年前,可能好多人用支付宝、不用微信,不用线上支付这种方式,现在大家都在用。我相信在未来三到五年,中国所有篮球赛事,大部分都会采用线上的管理平台,我们相信这里头是有一场变革,这种变革不是线下整个打翻规则,而是把以前纯粹的线下赛事体验,帮他连接到互联网上,真正的互联网 篮球,让用户在打完球之后,有一种很好的线上体验。更接地气一点来说,让每个热爱篮球的人,从小就拥有专业的数据统计,不再是打完球什么都没有留下。
提问:您的产品应该被广泛应用,您能再介绍一下这个项目短期内,或者中长期要怎么赚钱吗?
林晓勇:我说一下项目的过程,2014年就成立了,“我奥”是“我的奥林匹克”的意思,我是化工大学的篮协会长我还是体委,我特别热爱体育这块,做了很多公益的活动。在组织学校的各种比赛过程当中,就发现了民间比赛都缺乏线上的管理工具,不能够很有效的进行管理,所有的报名、编排到现场包括留存等等,都没有工具,当时我们就希望做这样一种工具。
2014年,我们做了全品类的,但是做完一年之后,我们发现还需要专注一些,我们也走了一些弯路。到了2015年初的时候,我们专注到篮球这个领域,做完篮球之后,发现实际上有很多东西要做,刚才你讲的赛事,管理、报名环节都需要信息化。再往下做的时候,还有篮协,还有培训机构,他们都需要信息化的东西,所以我们不断深入去做。
在没有融资之前,我们的盈利模式主要是靠赛事运营,跟场馆合作,卖软件,我们的软件是付费产品,我们有联赛官网,并且为每个企业开通线上官网,从中收入了200多万,在这一年里我们盈亏平衡。在今年3月底的时候,姚明的经纪人发现了我们这个项目,并给予了投资,相当于孵化了我们快速去增长。
从4月份开始,我们迎来了高速增长的阶段,在这个阶段里面我们把赛事运营砍掉了,我们希望接入民间所有的赛事,投资人认为,赛事运营是可以赚钱的,但是并不是你的主营业务,我们经过交流,并不在意这点,他说我可以后续再给你钱,但是需要把量做上来。我们把赛事运营砍掉之后,收入是递减的,我们也在尝试新的运营方式,比如说线上广告,还有线下的招商,包括软件这块增值我们也是有收入的,我们在球员保险这方面也有收入。未来实际上可以打通商城、体彩,我们马上进入中国的半职业联赛,CBA还有一个阶段,我们也有机会进入到职业联赛去,未来可以往体彩方向转。
现在来讲,我们尝试过了,尝试过了一部分也被我们砍掉了,如果我们想去做,现阶段还是做市场推广的工作,先把民间的赛事接入进来。
主持人-数据猿创始人牟蕾:我没太听懂数据采集是怎么进去的?
林晓勇:数据采集,现阶段来讲,数据采集并不是高大上的采用硬件设备。在NBA一个球馆是有一套价值数千万美金的设备,号称自动识别生成数据统计,实际上他只能做到80%的数据采集,剩下大量的数据还是靠人工。CBA更是靠人工,他拿个电脑,一个人点,一个人报主队,一个报客队,这是国内最顶级联赛数据统计采集的方式。我们要想获取球员在球场上的信息,在现阶段,或者说在五到十年之内,我觉得不可能有直接硬件的条件能够自动识别,尤其是民间赛事更不可能,所以我们这套软件方法很low,但是效率很高,你点击它实际上就能很快的生成。
推荐阅读:
国足又双叒叕输了?用大数据比兴奋剂靠谱!