20180104

陆陆续续,在新公司都呆半年多啦,新的一年祝大家新年快乐,我发觉我是一个很懒的人,半年过去了都没有更新点东西,真是惭愧。今天有空,就来浅谈半年来对大数据团队的理解。顺便呢增加了很多的内容。以后会陆陆续续增加以前的工作经验等等。

大数据团队成员

我想大家都知道,一个开发团队从需求开始依次需要 产品经理->前端设计->前端开发->后端开发->测试->运维 这样的流程,大致相同,今天来说说大数据团队的套路,大数据团队其实也会和传统的开发团队一样也需要 产品经理->前端设计->前端开发->后端开发->测试->运维 但是作为后端人员还需要 产品经理->数据分析师->数据开发工程师<-etl工程师<-运维 我们把这一坨人后边简称大数据后端团队。

浅谈大数据后端团队

个人愚见简单的解释下,产品经理就不用多说了对接需求的。后边我们分2条路来说,1是数据输入输出层面,2是需求层面。不过在此之前来谈以下数据分析师,数据开发工程师以及etl工程师这几个的关系。

数据分析师他可以是产品经理,也可以是算法工程师,也可以是建模工程师,其实我觉得是一个广义的概念,当然也可以说他是一个数据开发工程师,而etl工程师也可以说是数据开发工程师很多时候这一坨以我目前的经历也只能言尽于此,其实我觉得现在对这一块真的没一个准确的定义。

好比说一个人是做数据分析的,但是他肯定会懂算法,会建数据模型,但是懂算法的不一定是做数据分析的,可能他是做数据开发的。这么一个理~

数据输入输出层面

说到数据的接入,不外乎准实时,离线2块,不过在此文章种不做讨论,这里以离线来举例子。

底层平台是有运维哐哐哐弄起来的,离线的数据接入也离不开运维,只是运维也完全可以干etl 甚至数据开发的活(后边我会提到),然后离线数据扔hdfs,数据的清洗 解析 聚合 就是etl 的事情啦,不过数据开发也能需要来做(更多的是使用在准实时类数据接入), 输出是什么?聚合之后的数据其实在很多dmp系统中就直接可以用啦。

需求层面

从产品接到需求要实现什么什么功能开始,就会对已有的底层数据进行探索分析,数据分析师会对这个需求进行数据建模,甚至写出实现的demo,然后交给数据开发工程师进行固化代码或者代码去实现。

以dmp系统为例浅谈团队的生命周期

其实世面上大多数dmp系统都是可以不需要数据分析工程师,无非是数据的接入,清洗,汇聚,输出结果罢了,完事了之后留一个全能的,毕竟大数据的需求还是少并不是那么多,换而言之,首先需要人给你哐哐哐的平台搞起来,然后有人给你把数据接入到大数据平台,然后有人给你做数据的清洗和汇聚。。简单的dmp系统就形成啦。

其实重点还是来谈谈出路

笔者文凭是买的大专,其实说实话要想在深入走要么去拿个更好的文凭,要么就是过硬的技术,其实不止一两个朋友说“你还年轻可以考个文凭”,其实我自己现在也有了我自己的家庭,我也不能放弃掉目前的工作,哎...是个梗