
- Hive - Inicio
- Hive - Introducción
- Hive - Instalación
- Hive - Tipos de Datos
- Hive - Create Database
- Hive - Drop Database
- Hive - Create Table
- Hive - Alter Table
- Hive - Drop Table
- Hive - Partición
- Hive - Función de Operadores
- Hive - Hive - Función de Funciones
- Hive - Ver e Índices
- HiveQL
- HiveQL - Select-Where
- HiveQL - Select Order By
- HiveQL - Select Group By
- HiveQL - Select Joins
Hive - Instalacin
Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el sistema operativo Linux. Por lo tanto, es necesario instalar ningn sistema operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive instalacin:
Paso 1: Verificar instalacin DE JAVA
Java debe estar instalado en el sistema antes de instalar Hive. Debemos verificar instalacin de java utilizando el siguiente comando:
$ java version
Si Java ya est instalado en el sistema, usted podr ver la siguiente respuesta:
java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Si java no est instalado en el sistema, a continuacin, siga los pasos que se indican a continuacin para instalar java.
Instalacin de Java
Paso I:
Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente enlace http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.
A continuacin, jdk-7u71-linux-x64.tar.gz se descargar en su sistema.
Paso II:
En general, encontrar el archivo descargado java en la carpeta de descargas. Verificar y extraer el jdk-7u71-linux-x64.gz usando los siguientes comandos.
$ cd Downloads/ $ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz $ ls jdk1.7.0_71 jdk-7u71-linux-x64.gz
Paso III:
Para que java disponible para todos los usuarios, tiene que mover a la ubicacin /usr/local/. Abrir root, y escriba los siguientes comandos.
$ su password: # mv jdk1.7.0_71 /usr/local/ # exit
Paso IV:
Para la configuracin de ruta de acceso y JAVA_HOME variables, agregar los siguientes comandos en el archivo ~/.bashrc.
export JAVA_HOME=/usr/local/jdk1.7.0_71 export PATH=PATH:$JAVA_HOME/bin
Ahora compruebe la instalacin utilizando el comando java -version de la terminal como se ha explicado anteriormente.
Paso 2: Comprobar Hadoop Instalacin
Hadoop debe estar instalado en el sistema antes de instalar Hive. Deje que nosotros verificar la Hadoop instalacin utilizando el siguiente comando:
$ hadoop version
Si Hadoop ya est instalado en el sistema, entonces se recibe la siguiente respuesta:
Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 Compiled by hortonmu on 2013-10-07T06:28Z Compiled with protoc 2.5.0 From source with checksum 79e53ce7994d1628b240f09af91e1af4
Si Hadoop no est instalada en su sistema, contine con los siguientes pasos:
Descargar Hadoop
Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los siguientes comandos.
$ su password: # cd /usr/local # wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/ hadoop-2.4.1.tar.gz # tar xzf hadoop-2.4.1.tar.gz # mv hadoop-2.4.1/* to hadoop/ # exit
Instalar Hadoop en Pseudo modo distribuido
Los siguientes pasos se usan para instalar Hadoop 2.4.1 en pseudo modo distribuido.
Paso I: Configuracin de Hadoop
Puede establecer las variables de entorno Hadoop anexar los siguientes comandos para ~/.bashrc.
export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Ahora se aplican todos los cambios en el sistema actual.
$ source ~/.bashrc
Paso II: Hadoop Configuracin
Usted puede encontrar todos los archivos de configuracin Hadoop en la ubicacin "$HADOOP_HOME/etc/hadoop". Usted necesita hacer cambios en los archivos de configuracin segn su Hadoop infraestructura.
$ cd $HADOOP_HOME/etc/hadoop
Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante la sustitucin de la ubicacin de java en su sistema.
export JAVA_HOME=/usr/local/jdk1.7.0_71
A continuacin se presentan la lista de los archivos que tienes que modificar para configurar Hadoop.
Core-site.xml
Elcore-site.xmlcontiene informacin como el nmero de puerto que se usa para Hadoop ejemplo, memoria asignada para el sistema de archivos, lmite de memoria para almacenar los datos, y el tamao de lectura/escritura.
Abrir el core-site.xml y agregar las siguientes propiedades en entre el <configuration> y </configuration> etiquetas.
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Hdfs sitio.xml
La hdfs sitio.xml contiene informacin como el valor de los datos de rplica, el namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto significa que el lugar donde se desea almacenar el Hadoop infra.
Supongamos los siguientes datos.
dfs.replication (data replication value) = 1 (In the following path /hadoop/ is the user name. hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) namenode path = //home/hadoop/hadoopinfra/hdfs/namenode (hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Abra este archivo y agregar las siguientes propiedades en entre el <configuracin>, </configuration> en el archivo.
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > </property> </configuration>
Nota: En el archivo anterior, todos los valores de la propiedad son definidos por el usuario y puede realizar cambios en funcin de su infraestructura Hadoop.
yarn-site.xml
Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y aadir las siguientes propiedades de entre el <configuracin>, </configuration> en el archivo.
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Mapred sitio.xml
Este archivo se utiliza para especificar qu MapReduce framework que estamos usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio, xml.template de mapred sitio.xml con el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml
Abrirmapred-site.xmly agregar las siguientes propiedades en entre el <configuracin>, </configuration> en el archivo.
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Hadoop Instalacin Verificacin
Los siguientes pasos se utilizan para verificar la instalacin Hadoop.
Primer paso: Instalacin del nodo Nombre
Configurar el namenode usando el comando "hdfs namenode -format" de la siguiente manera.
$ cd ~ $ hdfs namenode -format
El resultado esperado es la siguiente.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = localhost/192.168.1.11 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.4.1 ... ... 10/24/14 21:30:56 INFO common.Storage: Storage directory /home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 ************************************************************/
Paso II: Verificacin Hadoop dfs
El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se iniciar la Hadoop sistema de archivos.
$ start-dfs.sh
El resultado esperado es la siguiente:
10/24/14 21:37:56 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out Starting secondary namenodes [0.0.0.0]
Etapa III: Verificacin Yarn Script
El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este comando se inicie el Yarn demonios.
$ start-yarn.sh
El resultado esperado es la siguiente:
starting yarn daemons starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
Etapa IV: Acceso a Hadoop en el navegador
El nmero de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente direccin url para obtener servicios Hadoop en su navegador.
http://localhost:50070/

Paso V: Verifique que todas las solicitudes de clster
El nmero de puerto predeterminado para acceder a todas las aplicaciones de clster es 8088. Utilice la siguiente direccin url para visitar este servicio.
http://localhost:8088/

Paso 3: Descargar subrbol
Utilizamos separacin de 0.14.0 en este tutorial. Se puede descargar de visitar el siguiente enlace http://apache.petsads.us/hive/hive-0.14.0/. Supongamos que se ha descargado en el directorio /downloads. En este sentido, descargar Subrbol archivo llamado "apache-Hive-0.14.0 -bin.tar.gz" de este tutorial. El siguiente comando se utiliza para verificar la descarga:
$ cd Downloads $ ls
En descarga exitosa, usted podr ver la siguiente respuesta:
apache-hive-0.14.0-bin.tar.gz
Paso 4: Instalar Hive
Los siguientes pasos son necesarios para instalar Hives en el sistema. Supongamos que el archivo Hive es descargado en el directorio /downloads.
Extraccin y verificacin Archivo Hive
El siguiente comando se utiliza para verificar la descarga y extraer la Hive archivo:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls
En descarga exitosa, usted podr ver la siguiente respuesta:
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
Copia de archivos en /usr/local/Hive directorio
Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extrado al /usr/local/Hive" directory.
$ su - passwd: # cd /home/user/Download # mv apache-hive-0.14.0-bin /usr/local/hive # exit
Medio ambiente de Hive
Puede configurar la seccin medio ambiente, aadiendo las siguientes lneas en el archivo ~/.bashrc:
export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:. export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
El siguiente comando se utiliza para ejecutar ~/.bashrc.
$ source ~/.bashrc
Paso 5: Configuracin Hive
Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redireccin a Hiveconfig carpeta y copie el archivo de plantilla:
$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh
Editar la Hive-env.sh archivo aadiendo la siguiente lnea:
export HADOOP_HOME=/usr/local/hadoop
Hive instalacin se completa correctamente. Ahora necesita un servidor de base de datos externa para configurar Metastore. Usamos Apache Derby base de datos.
Paso 6: Descargar e instalar Apache Derby
Siga los pasos que se indican a continuacin para descargar e instalar Apache Derby:
Descargar Apache Derby
El siguiente comando se utiliza para descargar Apache Derby. Se necesita un cierto tiempo para descargar.
$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
El siguiente comando se utiliza para verificar la descarga:
$ ls
En descarga exitosa, usted podr ver la siguiente respuesta:
db-derby-10.4.2.0-bin.tar.gz
Extraer y verificar Derby archive
Los siguientes comandos se utilizan para la extraccin y verificacin de la Derby archivo:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz $ ls
En descarga exitosa, usted podr ver la siguiente respuesta:
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
Copiar los archivos en /usr/local/derby directorio
Tenemos que copiar de los super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extrado al /usr/local/derby directorio:
$ su - passwd: # cd /home/user # mv db-derby-10.4.2.0-bin /usr/local/derby # exit
Medio ambiente de Derby
Puede configurar el Derby medio ambiente aadiendo las siguientes lneas en el archivo ~/.bashrc:
export DERBY_HOME=/usr/local/derby export PATH=$PATH:$DERBY_HOME/bin Apache Hive 18 export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
El siguiente comando se utiliza para ejecutar ~/.bashrc:
$ source ~/.bashrc
Cree un directorio para almacenar Metastore
Cree un directorio denominado datos en $DERBY_HOME Metastore directorio para almacenar los datos.
$ mkdir $DERBY_HOME/data
Derby instalacin y el medio ambiente se ha completado la instalacin.
Paso 7: Configuracin de Hive Metastore
Configuracin Metastore significa especificar a Hive donde se encuentra almacenada la base de datos. Esto se puede hacer mediante la modificacin de hive-site.xml file, el cual se encuentra en el $HIVE_HOME/directorio conf. En primer lugar, copiar el archivo de plantilla mediante el siguiente comando:
$ cd $HIVE_HOME/conf $ cp hive-default.xml.template hive-site.xml
Editarhive-site.xmly aadir las siguientes lneas entre <configuration> y </configuration> etiquetas:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby://localhost:1527/metastore_db;create=true </value> <description>JDBC connect string for a JDBC metastore </description> </property>
Cree un archivo denominado jpox.properties y aadir las siguientes lneas en l:
javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl org.jpox.autoCreateSchema = false org.jpox.validateTables = false org.jpox.validateColumns = false org.jpox.validateConstraints = false org.jpox.storeManagerType = rdbms org.jpox.autoCreateSchema = true org.jpox.autoStartMechanismMode = checked org.jpox.transactionIsolation = read_committed javax.jdo.option.DetachAllOnCommit = true javax.jdo.option.NontransactionalRead = true javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true javax.jdo.option.ConnectionUserName = APP javax.jdo.option.ConnectionPassword = mine
Paso 8: Comprobar Hive Instalacin
Antes de ejecutar Hive, que necesita para crear latmp carpeta y una Hive en carpeta HDFS. En este caso, utilizamos el /user/Hive/carpeta de almacn. Es necesario configurar permisos de escritura para estas carpetas recin creadas como se muestra a continuacin:
chmod g+w
Ahora HDFS en Hive antes de la verificacin. Use los siguientes comandos:
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
Los siguientes comandos se utiliza para verificar Hive instalacin:
$ cd $HIVE_HOME $ bin/hive
El xito de la instalacin de Hive, que puedes ver la siguiente respuesta:
Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt . hive>
El ejemplo siguiente se ejecuta el comando para mostrar todas las tablas:
hive> show tables; OK Time taken: 2.798 seconds hive>