20180117

带的人要走拉,附一份临走时让她总结的学习计划。还不错,审视下自己还有很多路要走呢。

【大体纲要】

— 学习Linux相关知识,学习和了解Shell脚本

— 学习Postgresql、MySQL数据库相关基础知识

— 学习和了解怎么通过CM+CDH搭建集群

— 学习了解HDFS、YARN、Zookeeper、Flume、hive、Impala、Sqoop、HBase、Spark等组件

— 重点学习Hive和Spark组件,学习和了解SQL语言和pyhton和scala语言。

— 学习和了解Python、Java和Scala语言基础

— 学习和了解MapReduce、SparkStream、SparkSQL、SparkMLlib、SparkGraphx的使用。

【具体内容】

Linux

推荐书籍:《Red Hat Linux用户基础》和《Red Hat Linux系统管理》

需掌握内容:

Linux基础、安装及基本命令操作
Linux磁盘和文件系统管理
RPM和YUM软件包管理
用户和用户管组管理
权限管理、启动管理
日志、故障排查和性能优化
管道、重定向及文本处理
shell编程基础

Postgresql和MySQL数据库

需要掌握内容:

数据库基础
Postgresql和MySQL基础、安装与配置
Postgresql和MySQL数据类型
数据的完整性及约束
Postgresql和MySQL数据库基本操作
创建、修改和删除表
SQL语句
插入、更新、与删除数据
查询数据

对CDH集群的管理

独立在自己的电脑上,通过CM+CDH的方式搭建伪分布式集群。
学习和了解ClouderaManager管理集群的特性,诸如日志汇总、配置管理、资源管理、报告、报警及服务管理等
学习和了解YARN、MapReduce、Spark及HDFS的工作原理
学习和了解如何使用Flume进行实时数据采集以及如何使用Sqoop在RDBMS和
学习和了解Hadoop集群之间进行数据如何导入导出
如何配置公平调度器为Hadoop上的多用户提供服务级别保障
学习和了解Hadoop集群的排错、诊断问题和性能调优

Python编程基础

如何进行Python下载与安装、执行Python脚本文件、行和缩进、输入与输出等。
Python语言的基础数据类型、字符串与编码运算符及优先级、list、tuple、dict、set等。
Python函数运用、切片、迭代、列表生成器、生成器、迭代器等。
Python高阶函数map()、reduce()、filter()、sorted()、返回函数、闭包、匿名函数、装饰器、偏函数等。
Python模块的创建、包的引用、作用域、安装第三方模块、模块搜索路径等。
Python面向对象编程的类与实例、数据封装、访问限制、继承和多态、获取对象信息、__slots__、@property、多重继承、定制类、枚举类、元类等。
Python应用开发的错误与调试、Virtualenv虚拟环境、I/O读写、进程与线程、正则表达式等。

Scala编程基础

Scale基础、安装及环境配置
Scale基础语法、数据类型及变量
Scala访问修饰符、运算符
Scala流程控制语句、循环控制语句
Scala函数及闭包
Scala数组、集合及迭代器

大数据分析

学习使用Pig,Hive及Impala获取、存储及分析数据
学习和了解使用Hadoop工具执行基本的ETL工作
学习和了解使用Pig、Hive及Impala改善典型分析任务的效率
学习和了解对数据集进行交互式和复杂查询

大数据开发

学习和了解在Hadoop集群上如何部署ApacheSpark。
学习和了解使用Sparkshell进行交互式数据分析。
学习和了解使用SparkSQL查询处理结构化数据。
学习和了解使用SparkStreaming处理流式数据。
学习和了解使用Flume和Kafka为SparkStreaming采集流式数据