运营商数据是如何获取的,有哪些合适的应用场景?

我们一切通讯和互联网应用都建立在通讯网络上。所以三大运营商-电信,移动,联通能够接触到全部中国互联网的流量数据,这话不假。

我们先从技术上看看运营商的数据是如何获取的,都有哪些类型。

前面说过,所有互联网应用数据都要经过通讯设备传输。有线和无线的数据终端产生的数据,最终汇集到有线骨干网络,再通过路由器向相应目的地分发。固网流量数据有2种获得方式:

1.直接分光,可以得到100%的流量数据;

2.端口镜像,主要是80,8080这两个http协议常用端口。移动流量数据获取要复杂一些,涉及不同运营商蜂窝网络标准,主要对接GPRS,CDMA,LTE网络端口来获取。
运营商数据是如何获取的,有哪些合适的应用场景?
运营商都有自己的数据平台,数据处理主要采用DPI-Deep Package Inspection 深度数据报文解析技术-所谓“深度”是和普通的报文解析层次比较而言的,“普通报文检测”仅分析IP包的4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI 除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。对应用层的识别依赖于对市场活跃流量对应的业务和供应厂商的持续跟踪和更新。

另外一个数据采集方式是通过日志溯源系统,日志溯源系统3大运营商有自己的格式,数据和日志的join工作也已经完成,一般采用流日志的格式,以文件形式保存,不能够做到实时。

运营商数据平台主要采集的是用户上行流量-即用户向网络主动发送请求的数据。此外移动网络中还有基站信令数据,用于维护用户设备与网络链路的链接,不受用户控制,随时随地的发生。这部分数据也有很大商业价值,比如LBS信息,但因为数据归属部门不同,一般不纳入运营商的数据采集体系。

运营商数据解析有很多技术障碍需要克服,比如NAT问题,在IPv4向IPv6过渡过程中,为提高IP地址复用率造成的用户识别困难数据分片造成的数据完整性问题;还有数据缓存清洗问题,https加密问题等等。

因此,在了解了运营商数据产生传输机制后,运营商为大数据应用而建立的数据平台,并没有外界看起来的那么顺手和轻松。

打个比方,运营商视角网络上的数据好比由无数条不同材质,形状,颜色的珠子串成的项链,被拆散混在一起,还夹杂着各种连接件一股脑的丢进管道网络里,奔向不同的目的地。你观察管道川流不息的珠子流,想重新还原出一个完整项链的样子...

谈何容易。

下面我们谈谈运营商数据适合的应用场景。

对于单个用户而言,他至少是依赖某一个运营商来进行网络通信,因此如果以国家安全的名义,技术上是可以追溯这个用户的全部网络行为数据的(日志回溯系统为此而建立),从而对用户进行精准画像。

但是针对某一个市场,省份的用户群,毕竟我们有3个运营商,没有哪一个运营商拥有全部数据。不过每一个运营商的数据在市场上是垂直分布的,体量也足够大,因此样本覆盖是很全的,所以很适合做统计分析和洞察。整个市场好比是一块大蛋糕,每个运营商都自上而下的切了一块,你看看切面就知道蛋糕的配料组成和分布了。

至于大多广告主希望的针对个人用户的重定向,精准营销,运营商数据技术上可以做,但是实际上很难操作。因为数据安全敏感性原因。运营商所有数据都有一个宗旨:“不出网”,这个不出网的概念是不能对接到运营商机房以外的任何系统里。运营商不敢为了数据应用这点芝麻利益,触碰用户隐私法律边界。

综上所述,运营商数据适合做金融征信,但需要脱敏处理;适合统计分析和市场洞察。

运营商的数据一直被营销业界视为无可替代的宝贵资源,千方百计想要合作应用。

但大家往往忽略的是:数据不是电信运营商的核心资产,数据应用也不是他们的核心业务,与收入来源。

运营商网络关注点在于大覆盖,高速率,和低延时。吸引更多的入网用户赚取服务费是他们的业务核心。

我国的运营商是国营企业,面临直接的政府监管。虽然在大数据时代,运营商也变相推出一些数据产品,但都非常谨慎,经济上不会为了数据里的芝麻,丢了数百亿的运营收入的大西瓜。所以,运营商的数据应用,面临很多业务上的限制,也面临很多技术上的壁垒,这一点往往是外部没有想到的。

希望这一小段文字,能够帮助大家更好的理解运营商数据问题。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: