spark指定内存 和cpu个数 以及队列

ssql --master yarn --executor-memory 2g --num-executors 20 --queue root.super

hive指定队列以及map or reduce 内存大小

hive mapred.job.queue.name=root.super set mapreduce.reduce.memory.mb=2000; set mapreduce.map.memory.mb=2000;

hive删除文件不放入回收站

hadoop fs -rm -r -skipTrash

数据处理 空格替换为\N

导出数据到loccal

insert overwrite local directory "/home/ranfengzheng/dwdztc/ztc_dwd_loc_1p_test_20170717_500" row format delimited fields terminated by '|' select * from ztc_dwd_loc_1p_test_20170717_500;

hdfs 导入到postgres

sqoop export --connect jdbc:postgresql://192.168.91.20:5432/esnop_data --username esnop_admin --password admin.123 --table c_mrs_hour_kpi_201707 --update-key enodeb_id,eutrancell_id --export-dir /user/manian/test --input-null-string 'NIL' --input-fields-terminated-by '\t' --columns "a,b,c"

ps:有自增时 需要指定列

HBASE 导入 导出

1.使用命令 导出到 hdfs

hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 数据文件位置 1 1516032000000 1516136400000

ps: 1为导出的版本号 后跟时间戳000

2.使用hadoop fs get 数据

hadoop fs -get /output/ranfengzheng/hbase_test .

3.下载/上传

4.导入数据到hadoop hdfs

hadoop fs -put hbase_test /output/ranfengzheng/hbase_test

5.导入数据到hbase

hbase org.apache.hadoop.hbase.mapreduce.Driver export 表名 数据文件位置

hbase 删除数据:

alter 'hbase_test', {NAME=>'kpi',TTL=>'17280000'} alter 'hbase_test', {NAME=>'other_info',TTL=>'17280000'} major_compact 'hbase_road_grid'

hbase 倒序查询:

scan 'hbase_test',{LIMIT=>10,REVERSED=>TRUE}

hive小文件合并:

set hive.merge.mapredfiles=true;