Hive - Instalación

Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el sistema operativo Linux. Por lo tanto, es necesario instalar ningún sistema operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive instalación:

Paso 1: Verificar instalación DE JAVA

Java debe estar instalado en el sistema antes de instalar Hive. Debemos verificar instalación de java utilizando el siguiente comando:

$ java –version

Si Java ya está instalado en el sistema, usted podrá ver la siguiente respuesta:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Si java no está instalado en el sistema, a continuación, siga los pasos que se indican a continuación para instalar java.

Instalación de Java

Paso I:

Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente enlace http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.

A continuación, jdk-7u71-linux-x64.tar.gz se descargará en su sistema.

Paso II:

En general, encontrará el archivo descargado java en la carpeta de descargas. Verificar y extraer el jdk-7u71-linux-x64.gz usando los siguientes comandos.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Paso III:

Para que java disponible para todos los usuarios, tiene que mover a la ubicación “/usr/local/”. Abrir root, y escriba los siguientes comandos.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Paso IV:

Para la configuración de ruta de acceso y JAVA_HOME variables, agregar los siguientes comandos en el archivo ~/.bashrc.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Ahora compruebe la instalación utilizando el comando java -version de la terminal como se ha explicado anteriormente.

Paso 2: Comprobar Hadoop Instalación

Hadoop debe estar instalado en el sistema antes de instalar Hive. Deje que nosotros verificar la Hadoop instalación utilizando el siguiente comando:

$ hadoop version

Si Hadoop ya está instalado en el sistema, entonces se recibe la siguiente respuesta:

Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 
Compiled by hortonmu on 2013-10-07T06:28Z 
Compiled with protoc 2.5.0 
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Si Hadoop no está instalada en su sistema, continúe con los siguientes pasos:

Descargar Hadoop

Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los siguientes comandos.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Instalar Hadoop en Pseudo modo distribuido

Los siguientes pasos se usan para instalar Hadoop 2.4.1 en pseudo modo distribuido.

Paso I: Configuración de Hadoop

Puede establecer las variables de entorno Hadoop anexar los siguientes comandos para ~/.bashrc.

export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Ahora se aplican todos los cambios en el sistema actual.

$ source ~/.bashrc

Paso II: Hadoop Configuración

Usted puede encontrar todos los archivos de configuración Hadoop en la ubicación "$HADOOP_HOME/etc/hadoop". Usted necesita hacer cambios en los archivos de configuración según su Hadoop infraestructura.

$ cd $HADOOP_HOME/etc/hadoop

Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante la sustitución de la ubicación de java en su sistema.

export JAVA_HOME=/usr/local/jdk1.7.0_71

A continuación se presentan la lista de los archivos que tienes que modificar para configurar Hadoop.

Core-site.xml

Elcore-site.xmlcontiene información como el número de puerto que se usa para Hadoop ejemplo, memoria asignada para el sistema de archivos, límite de memoria para almacenar los datos, y el tamaño de lectura/escritura.

Abrir el core-site.xml y agregar las siguientes propiedades en entre el <configuration> y </configuration> etiquetas.

<configuration>

   <property> 
      <name>fs.default.name</name> 
      <value>hdfs://localhost:9000</value> 
   </property>
   
</configuration>

Hdfs sitio.xml

La hdfs sitio.xml contiene información como el valor de los datos de réplica, el namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto significa que el lugar donde se desea almacenar el Hadoop infra.

Supongamos los siguientes datos.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Abra este archivo y agregar las siguientes propiedades en entre el <configuración>, </configuration> en el archivo.

<configuration>

   <property> 
      <name>dfs.replication</name> 
      <value>1</value> 
   </property> 
   <property> 
      <name>dfs.name.dir</name> 
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> 
   </property> 
   <property> 
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > 
   </property>
   
</configuration>

Nota: En el archivo anterior, todos los valores de la propiedad son definidos por el usuario y puede realizar cambios en función de su infraestructura Hadoop.

yarn-site.xml

Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y añadir las siguientes propiedades de entre el <configuración>, </configuration> en el archivo.

<configuration>

   <property> 
      <name>yarn.nodemanager.aux-services</name> 
      <value>mapreduce_shuffle</value> 
   </property>
   
</configuration>

Mapred sitio.xml

Este archivo se utiliza para especificar qué MapReduce framework que estamos usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio, xml.template de mapred sitio.xml con el siguiente comando.

$ cp mapred-site.xml.template mapred-site.xml

Abrirmapred-site.xmly agregar las siguientes propiedades en entre el <configuración>, </configuration> en el archivo.

<configuration>

   <property> 
      <name>mapreduce.framework.name</name> 
      <value>yarn</value> 
   </property>

</configuration>

Hadoop Instalación Verificación

Los siguientes pasos se utilizan para verificar la instalación Hadoop.

Primer paso: Instalación del nodo Nombre

Configurar el namenode usando el comando "hdfs namenode -format" de la siguiente manera.

$ cd ~
$ hdfs namenode -format

El resultado esperado es la siguiente.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG: host = localhost/192.168.1.11 
STARTUP_MSG: args = [-format] 
STARTUP_MSG: version = 2.4.1 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
 ************************************************************/

Paso II: Verificación Hadoop dfs

El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se iniciará la Hadoop sistema de archivos.

$ start-dfs.sh

El resultado esperado es la siguiente:

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

Etapa III: Verificación Yarn Script

El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este comando se inicie el Yarn demonios.

$ start-yarn.sh

El resultado esperado es la siguiente:

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Etapa IV: Acceso a Hadoop en el navegador

El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente dirección url para obtener servicios Hadoop en su navegador.

http://localhost:50070/

Paso V: Verifique que todas las solicitudes de clúster

El número de puerto predeterminado para acceder a todas las aplicaciones de clúster es 8088. Utilice la siguiente dirección url para visitar este servicio.

http://localhost:8088/

Paso 3: Descargar subárbol

Utilizamos separación de 0.14.0 en este tutorial. Se puede descargar de visitar el siguiente enlace http://apache.petsads.us/hive/hive-0.14.0/. Supongamos que se ha descargado en el directorio /downloads. En este sentido, descargar Subárbol archivo llamado "apache-Hive-0.14.0 -bin.tar.gz" de este tutorial. El siguiente comando se utiliza para verificar la descarga:

$ cd Downloads
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:

apache-hive-0.14.0-bin.tar.gz

Paso 4: Instalar Hive

Los siguientes pasos son necesarios para instalar Hives en el sistema. Supongamos que el archivo Hive es descargado en el directorio /downloads.

Extracción y verificación Archivo Hive

El siguiente comando se utiliza para verificar la descarga y extraer la Hive archivo:

$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Copia de archivos en /usr/local/Hive directorio

Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extraído al /usr/local/Hive" directory.

$ su -
passwd:

# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Medio ambiente de Hive

Puede configurar la sección medio ambiente, añadiendo las siguientes líneas en el archivo ~/.bashrc:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

El siguiente comando se utiliza para ejecutar ~/.bashrc.

$ source ~/.bashrc

Paso 5: Configuración Hive

Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redirección a Hiveconfig carpeta y copie el archivo de plantilla:

$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh

Editar la Hive-env.sh archivo añadiendo la siguiente línea:

export HADOOP_HOME=/usr/local/hadoop

Hive instalación se completa correctamente. Ahora necesita un servidor de base de datos externa para configurar Metastore. Usamos Apache Derby base de datos.

Paso 6: Descargar e instalar Apache Derby

Siga los pasos que se indican a continuación para descargar e instalar Apache Derby:

Descargar Apache Derby

El siguiente comando se utiliza para descargar Apache Derby. Se necesita un cierto tiempo para descargar.

$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

El siguiente comando se utiliza para verificar la descarga:

$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:

db-derby-10.4.2.0-bin.tar.gz

Extraer y verificar Derby archive

Los siguientes comandos se utilizan para la extracción y verificación de la Derby archivo:

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

En descarga exitosa, usted podrá ver la siguiente respuesta:

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Copiar los archivos en /usr/local/derby directorio

Tenemos que copiar de los super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extraído al /usr/local/derby directorio:

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Medio ambiente de Derby

Puede configurar el Derby medio ambiente añadiendo las siguientes líneas en el archivo ~/.bashrc:

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

El siguiente comando se utiliza para ejecutar ~/.bashrc:

$ source ~/.bashrc

Cree un directorio para almacenar Metastore

Cree un directorio denominado datos en $DERBY_HOME Metastore directorio para almacenar los datos.

$ mkdir $DERBY_HOME/data

Derby instalación y el medio ambiente se ha completado la instalación.

Paso 7: Configuración de Hive Metastore

Configuración Metastore significa especificar a Hive donde se encuentra almacenada la base de datos. Esto se puede hacer mediante la modificación de hive-site.xml file, el cual se encuentra en el $HIVE_HOME/directorio conf. En primer lugar, copiar el archivo de plantilla mediante el siguiente comando:

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Editarhive-site.xmly añadir las siguientes líneas entre <configuration> y </configuration> etiquetas:

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
   <description>JDBC connect string for a JDBC metastore </description>
</property>

Cree un archivo denominado jpox.properties y añadir las siguientes líneas en él:

javax.jdo.PersistenceManagerFactoryClass =

org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Paso 8: Comprobar Hive Instalación

Antes de ejecutar Hive, que necesita para crear latmp carpeta y una Hive en carpeta HDFS. En este caso, utilizamos el /user/Hive/carpeta de almacén. Es necesario configurar permisos de escritura para estas carpetas recién creadas como se muestra a continuación:

chmod g+w

Ahora HDFS en Hive antes de la verificación. Use los siguientes comandos:

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp 
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp 
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Los siguientes comandos se utiliza para verificar Hive instalación:

$ cd $HIVE_HOME
$ bin/hive

El éxito de la instalación de Hive, que puedes ver la siguiente respuesta:

Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties 
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

El ejemplo siguiente se ejecuta el comando para mostrar todas las tablas:

hive> show tables; 
OK 
Time taken: 2.798 seconds 
hive>