抑郁症健康 > Linux环境HBase安装配置及使用

Linux环境HBase安装配置及使用

时间：2021-07-25 17:02:21

相关推荐

Linux环境HBase安装配置及使用

1. 认识HBase

(1) HBase介绍

HBase = Hadoop database，Hadoop数据库开源数据库官网：/HBase源于Google的BigTableApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当需要对大数据进行随机、实时读/写访问时，请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的，分布式的，版本化的非关系数据库nosql，模仿Google的Bigtable： Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样，Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。HBase可执行基于Yarn平台的计算任务，但不擅长。

(2) HBase集群角色

HDFS： NameNode——主节点DataNode——数据存储节点Yarn： ResourceManager——全局的资源管理器NodeManager——分节点资源和任务管理器HBase： HMaster 负责Table表和RegionServer的监控管理工作处理元数据的变更对HRegionServer进行故障转移空闲时对数据进行负载均衡处理管理Region借助ZooKeeper发布位置到客户端HRegionServer 负责Table数据的实际读写刷新缓存数据到HDFS处理Region可以进行数据压缩维护HlogRegion分片

(3) Hbase架构

HRegionServer结构： HLog：存储HBase的修改记录HRegion：根据rowkey（行键，类似id）分割的表的分片Store：对应HBase表中的一个列族，可存储多个字段HFile：真正的存储文件MemStore：保存当前的操作ZooKeeper：存放数据的元数据信息，负责维护RegionServer中保存的元数据信息DFS Client：存储数据信息到HDFS集群中

2. HBase-1.3.0安装配置流程

(1) HBase准备

Hadoop集群环境ZooKeeper集群环境

(2) 解压HBase-1.3.0相关安装包到目标目录下：

tar -zxvf .tar.gz -C 目标目录

(3) 修改配置文件：

进入hbase/conf路径：vi hbase-env.sh

# The java implementation to use. Java 1.7+ required.export JAVA_HOME=jdk安装路径# 注释掉以下语句（jdk1.8中不需要这个配置）# export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"# export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"# Tell HBase whether it should manage it's own instance of Zookeeper or not.# 关闭HBase自带的ZooKeeperexport HBASE_MANAGES_ZK=false复制代码

vi hbase-site.xml

<property><name>hbase.rootdir</name><value>hdfs://bigdata01:9000/hbase</value> </property><property><name>hbase.cluster.distributed</name><value>true</value></property><property><name>hbase.master.port</name><value>16000</value></property><property><name>hbase.zookeeper.quorum</name> <value>bigdata01:2181,bigdata02:2181,bigdata03:2181</value></property><property><name>hbase.zookeeper.property.dataDir</name><value>/XXX/zookeeper-3.4.10/zkData</value></property>复制代码

vi regionservers加入从节点主机名

(4) 解决依赖问题

进入hbase/lib路径：rm -rf hadoop-*rm -rf zookeeper-*把相关版本的zookeeper和hadoop的依赖包导入到hbase/lib

(5) 软连接hadoop配置

ln -s /XXX/hadoop/core-site.xmlln -s /XXX/hadoop/hdfs-site.xml

(6) 拷贝配置好的HBase到其他机器上

scp -r hbase-1.3.0/ bigdata02:$PWDscp -r hbase-1.3.0/ bigdata03:$PWD

(7) 配置环境变量：

修改配置文件：vi /etc/profile增加以下内容：export HBASE_HOME=/opt/module/hbase-1.3.0export PATH=$PATH:$HBASE_HOME/bin声明环境变量：source /etc/profile

(8) 启动集群

启动主节点hbase-daemon.sh start master启动从节点hbase-daemon.sh start regionserver

(9) 关闭集群

关闭主节点hbase-daemon.sh stop master关闭从节点hbase-daemon.sh stop regionserver

(10) UI界面

http://bigdata01:16010/master-status

3. HBase Shell操作

(1) 启动终端

hbase shell回退：ctrl + <-

(2) 操作命令：

注意：若报错：ERROR: Can't get master address from ZooKeeper; znode data == null解决方案：虚拟机挂起，会使zookeeper不稳定，进而造成hbase不稳定，若遇到报错，重启HBase集群即可。查询表：list显示HBase服务器状态：status '主机名'1 active master：存活的主节点0 backup masters：备份的主节点3 servers：从节点0 dead：宕机0.6667 average load：平均加载时间显示当前用户：whoami创建表：create '表名', '列族1', '列族2'查看表：全表扫描：scan '表名'指定Rowkey扫描：scan '表名', {STARTROW => 'Rowkey值', STOPROW => 'Rowkey值'}STOPROW为可选指令，值为实际查看Rowkey+1查看表结构：describe '表名'修改表结构信息：alter '表名', {NAME => '列族名', 变更字段名 => ' '}查询指定数据信息：指定具体的rowkey：get '表名', 'rowkey'指定具体的列：get '表名', 'rowkey', '列族:列名'统计表行数：count '表名'根据Rowkey进行统计表中添加数据信息：put '表名', 'rowkey', '列族:列名', '值'HBase只有覆盖没有修改覆盖时对应表名、rowkey、列族、列名字段，输入新的值信息清空表：truncate '表名'删除表：指定表不可用：disable '表名'删除：drop '表名'

(3) 退出终端

exit或者quit

4. HBase读写数据

(1) HBase读数据流程

概述：

客户端Client访问ZooKeeper，返回-ROOT-表元数据位置，根据元数据位置去查找对应的RegionServer，同时根据-ROOT-查找到.META表，再根据.META表的元数据查找到Region，返回Region的业务元数据给客户端。

具体流程：

客户端Client从Region中的Store中读取数据，若在写数据缓存memstore（存放用户最近写入的数据）中读到对应数据，则直接返回数据信息到客户端，若memstore中不存在对应数据，则去读数据缓存blockcache中查找，若blockcache中仍未找到，则去对应的HFile查找数据信息并存入blockcache，进而通过blockcache返回数据信息到客户端。HBase读写分离

(2) HBase写数据流程

客户端Client发送写数据请求，通过ZooKeeper获取到表的元数据信息，客户端通过RPC通信查找到对应的RegionServer，进而找到Region，同时在HLog中记录写操作，通过HLog把数据信息写入到memstore（16KB），memstore存满后溢写到storeFile中，最后HDFS客户端统一存储到HFile。

5. HBase API操作

(1) 准备工作

新建Maven工程，pom.xml中添加依赖：

<dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>1.3.0</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>1.3.0</version></dependency></dependencies>复制代码

从HBase下的conf/目录中导出core-site.xml,hbase-site.xml,hdfs-site.xml，导入Maven工程的resources目录下。注意：不进行该操作会导致与HBase连接失败

(2) 具体操作

package ybcarry.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import java.io.IOException;import java.util.ArrayList;import java.util.List;/*** @ClassName: HbaseTest* @Description* @Author: YBCarry* @Date-03-30 21:10* @Version: V1.0**/public class HbaseTest {public static Configuration conf ;//配置信息static {conf = HBaseConfiguration.create() ;}/**1. 判断HBase中表是否存在*/public static boolean isExist(String tableNane) throws IOException {//旧版本操作表//HBaseAdmin admin = new HBaseAdmin(conf);//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//管理器HBaseAdmin admin = (HBaseAdmin)connection.getAdmin() ;return admin.tableExists(TableName.valueOf(tableNane)) ;}/**2. 在HBase中创建表*/public static void createTable(String tableName, String... columnFamilly) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 如果对表的操作需要使用管理器HBaseAdmin admin = (HBaseAdmin)connection.getAdmin() ;//b. 创建描述器HTableDescriptor htd = new HTableDescriptor(TableName.valueOf(tableName)) ;//c. 指定多个列族for (String cf : columnFamilly) {htd.addFamily(new HColumnDescriptor(cf)) ;}//d. 创建表admin.createTable(htd) ;System.out.println("createTable----successful") ;}/**3. 向表中添加数据*/public static void addData(String tableName, String rowkey, String cf, String column, String value) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 指定表Table table = connection.getTable(TableName.valueOf(tableName)) ;//b. 添加数据 put方式Put put = new Put(Bytes.toBytes(rowkey)) ;//c. 指定添加的列族列值put.addColumn(Bytes.toBytes(cf), Bytes.toBytes(column), Bytes.toBytes(value)) ;//d. 写入表中table.put(put) ;System.out.println("addData----successful") ;}/**4. 删除一个rowkey*/public static void deleteRow(String tableName, String rowkey) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 指定表Table table = connection.getTable(TableName.valueOf(tableName)) ;//b. 删除rowkey delete方式Delete delete = new Delete(Bytes.toBytes(rowkey)) ;//d. 执行操作table.delete(delete) ;System.out.println("deleteRow----successful") ;}/**5. 删除多个rowkey*/public static void deleteRows(String tableName, String... rowkey) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 指定表Table table = connection.getTable(TableName.valueOf(tableName)) ;//b. 封装delete操作List<Delete> ds = new ArrayList<Delete>() ;//c. 遍历rowkeyfor (String rk : rowkey) {Delete deletes = new Delete(Bytes.toBytes(rk)) ;ds.add(deletes) ;}//d. 执行操作table.delete(ds) ;System.out.println("deleteRows----successful") ;}/**6. 全表扫描*/public static void scanAll(String tableName) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 指定表Table table = connection.getTable(TableName.valueOf(tableName)) ;//b. 扫描操作Scan scan = new Scan() ;//c. 获取返回值ResultScanner rs = table.getScanner(scan) ;//d. 打印扫描信息for (Result r : rs) {//单元格Cell[] cells = r.rawCells() ;for (Cell cs : cells) {System.out.println("RowKey:" + Bytes.toString(CellUtil.cloneRow(cs))) ;System.out.println("ColumnFamilly:" + Bytes.toString(CellUtil.cloneFamily(cs))) ;System.out.println("Column:" + Bytes.toString((CellUtil.cloneQualifier(cs)))) ;System.out.println("Value:" + Bytes.toString((CellUtil.cloneValue(cs)))) ;}}//成功标志System.out.println("scanAll----successful") ;}/**7. 删除表*/public static void deleteTable(String tableName) throws IOException {//加载配置Connection connection = ConnectionFactory.createConnection(conf) ;//a. 如果对表的操作需要使用管理器HBaseAdmin admin = (HBaseAdmin)connection.getAdmin() ;//b. 弃用表admin.disableTable(tableName) ;//c. 删除表admin.deleteTable(TableName.valueOf(tableName)) ;//成功标志System.out.println("deleteTable----successful") ;}/**主函数*/public static void main(String[] args) throws IOException {/**1. 判断HBase中表是否存在*/// System.out.println(isExist("user")) ;/**2. 在HBase中创建表*/// createTable("create1", "info1", "info2", "info3") ;/**3. 向表中添加数据：列族列值*/// addData("create1", "xiaoming", "info1", "age", "18") ;// addData("create1", "xiaoming", "info1", "sex", "man") ;// addData("create1", "xiaoming", "info2", "professional", "student") ;// addData("create1", "xiaohong", "info2", "professional", "teacher") ;/**4. 删除一个rowkey*/// deleteRow("create", "xiaoming") ;/**5. 删除多个rowkey*/// deleteRows("create", "xiaoming", "xiaohong") ;/**6. 全表扫描*/// scanAll("create1") ;/**7. 删除表*/deleteTable("create2") ;}}复制代码

6. HBase MR操作

(1) 说明

HBase主要擅长的领域是存储数据，不擅长分析数据HBase如果想计算的话需要结合Hadoop的mapreducehbase-mr所需的jar包查看：bin/hbase mapredcp

(2) 准备工作

方式1：配置临时环境变量export HBASE_HOME=/XXXX/hbase-1.3.0export HADOOP_HOME=/XXXX/hadoop2.8.4

export HADOOP_CLASSPATH_2=`$HADOOP_CLASSPATH_2:$HBASE_HOME/bin/hbase mapredcp` 复制代码

方式2：配置系统环境变量修改配置文件：vi /etc/profile增加以下内容：export HBASE_HOME=/opt/module/hbase-1.3.0

export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`复制代码

声明环境变量：source /etc/profile

(3) 运行HBase-MR程序

bin/yarn jar /XXXX/hbase-1.3.0/lib/hbase-server-1.3.0.jar row counter 表名

(4)实例1：HBase过滤列族和列

ReadMapper.java:

package ybcarry.mr;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableMapper;import org.apache.hadoop.hbase.util.Bytes;import java.io.IOException;/*** @ClassName: ReadMapper* @Description* @Author: YBCarry* @Date-04-26 01:36* @Version: V1.0** mapper类进行对数据* K:ImmutableBytesWritable HBase中的rowkey* V:Put 封装的数据**/public class ReadMapper extends TableMapper<ImmutableBytesWritable, Put> {@Overrideprotected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {//1. 读取数据根据rowkey拿到数据Put put = new Put(key.get()) ;//2. 过滤列for (Cell c : value.rawCells()) {//得到info列族数据——是info列族-取出；不是info列族-过滤if ("info".equals(Bytes.toString(CellUtil.cloneFamily(c)))) {//过滤列if ("name".equals(Bytes.toString(CellUtil.cloneQualifier(c)))) {put.add(c) ;}}}//3. 输出到reducer端：key -> rowkey put -> 具体数据context.write(key, put) ;}}复制代码

WriteReducer.java:

package ybcarry.mr;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableReducer;import org.apache.hadoop.io.NullWritable;import java.io.IOException;/*** @ClassName: WriteReducer* @Description* @Author: YBCarry* @Date-04-26 02:55* @Version: V1.0**/public class WriteReducer extends TableReducer<ImmutableBytesWritable, Put, NullWritable> {@Overrideprotected void reduce(ImmutableBytesWritable key, Iterable<Put> values, Context context) throws IOException, InterruptedException {for (Put p : values) {context.write(NullWritable.get(), p) ;}}}复制代码

Driver.java:

package ybcarry.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Scan;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.util.Tool;import org.apache.hadoop.util.ToolRunner;/*** @ClassName: Driver* @Description* @Author: YBCarry* @Date-04-26 03:03* @Version: V1.0**/public class Driver implements Tool {private Configuration conf ;public void setConf(Configuration configuration) {this.conf = HBaseConfiguration.create(configuration) ;}public Configuration getConf() {return this.conf ;}public int run(String[] strings) throws Exception {//1. 创建任务Job job = Job.getInstance(conf) ;//2. 指定运行的主类job.setJarByClass(Driver.class) ;//3. 配置jobScan scan = new Scan() ;//4. 设置具体运行mapper类(table1为HBase中要处理的表的表名)TableMapReduceUtil.initTableMapperJob("table1",scan,ReadMapper.class,ImmutableBytesWritable.class,Put.class,job) ;//5. 设置具体运行reducer类(table2为HBase中处理后生成表的表名，需要在HBase中提前创建好)TableMapReduceUtil.initTableReducerJob("table2",WriteReducer.class,job);//6. 设置reduceTaskjob.setNumReduceTasks(1) ;boolean rs = job.waitForCompletion(true) ;return rs ? 0 : 1 ;}public static void main(String[] args) throws Exception {//状态码int sts = ToolRunner.run(new Driver(), args) ;//退出System.exit(sts) ;}}复制代码

生成jar包，导入HBase环境中即可

(5)实例2：HBase过滤列族和列

ReadHDFSMapper.java:

package ybcarry.mr2;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** @ClassName: ReadHDFSMapper* @Description* @Author: YBCarry* @Date-04-27 00:31* @Version: V1.0** 读取HDFS中的数据：* 输入通过Hadoop MR* 输出通过HBase MR**/public class ReadHDFSMapper extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//1. 读取数据String line = value.toString() ;//2. 切分数据String[] fields = line.split("\t") ;//3. 封装数据//数据示例：001YBCarry21byte[] rowkey = Bytes.toBytes(fields[0]) ;byte[] name = Bytes.toBytes(fields[1]) ;byte[] age = Bytes.toBytes(fields[2]) ;//4. 封装成putPut put = new Put(rowkey) ;put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"), name) ;put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), age) ;//5. 输出到reducer端context.write(new ImmutableBytesWritable(rowkey), put) ;}}复制代码

WriteHBaseReducer.java:

package ybcarry.mr2;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableReducer;import org.apache.hadoop.io.NullWritable;import java.io.IOException;/*** @ClassName: WriteHBaseReducer* @Description* @Author: YBCarry* @Date-04-27 02:29* @Version: V1.0** hbase**/public class WriteHBaseReducer extends TableReducer<ImmutableBytesWritable, Put, NullWritable> {@Overrideprotected void reduce(ImmutableBytesWritable key, Iterable<Put> values, Context context) throws IOException, InterruptedException {for (Put p : values) {//rowkey不需要，所以NullWritablecontext.write(NullWritable.get(), p) ;}}}复制代码

Driver.java:

package ybcarry.mr2;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.util.Tool;import org.apache.hadoop.util.ToolRunner;/*** @ClassName: Driver* @Description* @Author: YBCarry* @Date-04-27 03:00* @Version: V1.0**/public class Driver implements Tool {//配置初始化private Configuration conf ;public void setConf(Configuration configuration) {this.conf = HBaseConfiguration.create(configuration) ;}public Configuration getConf() {return this.conf ;}public int run(String[] strings) throws Exception {//1. 创建任务Job job = Job.getInstance(conf) ;//2. 指定运行的主类job.setJarByClass(Driver.class) ;//3. 配置Mapperjob.setMapperClass(ReadHDFSMapper.class) ;job.setMapOutputKeyClass(ImmutableBytesWritable.class) ;job.setMapOutputValueClass(Put.class) ;//4. 配置Reducer (表名table2为输出表的表名)TableMapReduceUtil.initTableReducerJob("table2", WriteHBaseReducer.class, job) ;//5. 输入配置 inputFormat (able1为初始表的路径)FileInputFormat.addInputPath(job, new Path("/table1")) ;//6. 设置reduceTaskjob.setNumReduceTasks(1) ;boolean rs = job.waitForCompletion(true) ;return rs ? 0 : 1 ;}public static void main(String[] args) throws Exception {//状态码int sts = ToolRunner.run(new Driver(), args) ;//退出System.exit(sts) ;}}复制代码

生成jar包，导入HBase环境中即可

7. HBase 优化

(1) 预分区

表很大、数据量大 —— region分片+分布式region：每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。rowkey{startrowkey,endrowkey}预分区设置：方法1：create 'table1','info','partition',SPLITS => ['101','102','103','104']显示效果：

方法2：create 'table2','partition',SPLITS_FILE => '/XXXX/partitions.txt'(文件放在hbase-shell路径下或者使用绝对路径)partitions.txt内容：

aabbccddee复制代码

显示效果：

(2) rowkey设计

一条数据的唯一标识就是rowkey，那么这条数据存储于哪个分区，取决于rowkey处于哪个一个预分区的区间内，设计rowkey的主要目的，就是让数据均匀的分布于所有的region中，在一定程度上防止数据倾斜。解决方案：目标：打散数据，平均分配到每个region中方案1——生成随机数、hash、散列值一般会选择从数据集中抽取样本，来决定什么样的rowKey来Hash后作为每个分区的临界值。方案2——字符串拼接： 0427_a3d40427_jl4f方案3——反转字符串： 04271 -> 17240910204272 -> 272409102

(3) HBase内存优化

HBase操作过程中需要大量的内存开销，毕竟Table是可以缓存在内存中的，一般会分配整个可用内存的70%给HBase的Java堆。但是不建议分配非常大的堆内存，因为GC过程持续太久会导致RegionServer处于长期不可用状态，一般最多分配75%内存就可以了，如果因为框架占用内存过高导致系统内存不足，框架一样会被系统服务拖死。vi hadoop-env.sh设置内存的堆大小export HADOOP_PORTMAP_OPTS='-XmxAAAAm $HADOOP_PORTMAP_OPTS'(AAAA为内存值)

(4) HBase基础优化

HBase基于HDFS存储：调大datanode允许最大文件打开数(默认4096)： HBase一般都会同一时间操作大量的文件，根据集群的数量和规模以及数据动作vi hdfs-site.xml

<property><name>dfs.datanode.max.transfer.threads</name><value>XXXX</value></property>复制代码

调大等待时间(默认60000毫秒)：如果对于某一次数据操作来讲，延迟非常高，socket需要等待更长的时间，建议把该值设置为更大的值，以确保socket不会被timeout掉vi hdfs-site.xml

<property><name>dfs.image.transfer.timeout</name><value>XXXX</value></property>复制代码

高级优化： 1．允许在HDFS的文件中追加内容（hdfs-site.xml、hbase-site.xml）属性：dfs.support.append解释：开启HDFS追加同步，可以优秀的配合HBase的数据同步和持久化。默认值为true。2．优化数据的写入效率（mapred-site.xml）属性：mapreduce.press、mapreduce.press.codec解释：开启这两个数据可以大大提高文件的写入效率，减少写入时间。第一个属性值修改为true，第二个属性值修改为：org.apache.press.GzipCodec或者其他压缩方式。3．设置RPC监听数量（hbase-site.xml）属性：hbase.regionserver.handler.count解释：默认值为30，用于指定RPC监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。4．优化HStore文件大小（hbase-site.xml）属性：hbase.hregion.max.filesize解释：默认值10737418240（10GB），如果需要运行HBase的MR任务，可以减小此值，因为一个region对应一个map任务，如果单个region过大，会导致map任务执行时间过长。该值的意思就是，如果HFile的大小达到这个数值，则这个region会被切分为两个Hfile。5．优化hbase客户端缓存（hbase-site.xml）属性：hbase.client.write.buffer解释：用于指定HBase客户端缓存，增大该值可以减少RPC调用次数，但是会消耗更多内存，反之则反之。一般我们需要设定一定的缓存大小，以达到减少RPC次数的目的。6．指定scan.next扫描HBase所获取的行数（hbase-site.xml）属性：hbase.client.scanner.caching解释：用于指定scan.next方法获取的默认行数，值越大，消耗内存越大。7．flush、compact、split机制当MemStore达到阈值，将Memstore中的数据Flush进Storefile；compact机制则是把flush出来的小文件合并成大的Storefile文件。split则是当Region达到阈值，会把过大的Region一分为二。涉及属性： 128M就是Memstore的默认阈值hbase.hregion.memstore.flush.size：134217728这个参数的作用是当单个HRegion内所有的Memstore大小总和超过指定值时，flush该HRegion的所有memstore。RegionServer的flush是通过将请求添加一个队列，模拟生产消费模型来异步处理的。那这里就有一个问题，当队列来不及消费，产生大量积压请求时，可能会导致内存陡增，最坏的情况是触发OOM。

hbase.regionserver.global.memstore.upperLimit：0.4hbase.regionserver.global.memstore.lowerLimit：0.38复制代码

当MemStore使用内存总量达到hbase.regionserver.global.memstore.upperLimit指定值时，将会有多个MemStores flush到文件中，MemStore flush 顺序是按照大小降序执行的，直到刷新到MemStore使用内存略小于lowerLimit

如果觉得《Linux环境HBase安装配置及使用》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。