spark指定内存 和cpu个数 以及队列
ssql --master yarn --executor-memory 2g --num-executors 20 --queue root.super
hive指定队列以及map or reduce 内存大小
hive mapred.job.queue.name=root.super set mapreduce.reduce.memory.mb=2000; set mapreduce.map.memory.mb=2000;
hive删除文件不放入回收站
hadoop fs -rm -r -skipTrash
数据处理 空格替换为\N
导出数据到loccal
insert overwrite local directory "/home/ranfengzheng/dwdztc/ztc_dwd_loc_1p_test_20170717_500" row format delimited fields terminated by '|' select * from ztc_dwd_loc_1p_test_20170717_500;
hdfs 导入到postgres
sqoop export --connect jdbc:postgresql://192.168.91.20:5432/esnop_data --username esnop_admin --password admin.123 --table c_mrs_hour_kpi_201707 --update-key enodeb_id,eutrancell_id --export-dir /user/manian/test --input-null-string 'NIL' --input-fields-terminated-by '\t' --columns "a,b,c"
ps:有自增时 需要指定列
HBASE 导入 导出
1.使用命令 导出到 hdfs
hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 数据文件位置 1 1516032000000 1516136400000
ps: 1为导出的版本号 后跟时间戳000
2.使用hadoop fs get 数据
hadoop fs -get /output/ranfengzheng/hbase_test .
3.下载/上传
4.导入数据到hadoop hdfs
hadoop fs -put hbase_test /output/ranfengzheng/hbase_test
5.导入数据到hbase
hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 数据文件位置
hbase 删除数据:
alter 'hbase_test', {NAME=>'kpi',TTL=>'17280000'} alter 'hbase_test', {NAME=>'other_info',TTL=>'17280000'} major_compact 'hbase_road_grid'
hbase 倒序查询:
scan 'hbase_test',{LIMIT=>10,REVERSED=>TRUE}
hive小文件合并:
set hive.merge.mapredfiles=true;