Hive - Installation



Alle Hadoop Teilprojekte wie Hive, Pig und HBase Unterstützung Linux-Betriebssystem. Daher müssen Sie, um jede Linux aromatisierte OS installieren. Die folgenden einfachen Schritte werden für Hive Installation hinrichten:

Schritt 1: Verifizierung der Java-Installation

Java muss auf Ihrem System vor der Installation von Hive installiert werden. Lassen Sie uns verifizieren, Java-Installation mit dem folgenden Befehl:

$ java –version

Wenn Java bereits auf Ihrem System installiert ist, erhalten Sie die folgende Antwort zu sehen:

java version "1.7.0_71" 
Java(TM) SE Runtime Environment (build 1.7.0_71-b13) 
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Wenn Java nicht auf Ihrem System installiert, Sie dann gehen Sie folgendermaßen vor für die Installation von Java gegeben.

Installieren von Java

Schritt I::

Herunterladen Java(JDK <latest version> - X64.tar.gz) indem Sie den Besuch den folgenden Link http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.

Dann jdk-7u71-linux-x64.tar.gz werden auf das ihren System heruntergeladen werden.

Schritt II:

Der Regel werden Sie zu finden die heruntergeladene Java-datei in heruntergeladene Ordner. Verifizieren Sie es und extrahieren Sie die JDK-7u71-linux-x64.gz Datei mitHilfe den folgenden Befehlen.

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

Schritt III:

Zu machen Java verfügbar für alle Benutzer verfügbar, müssen Sie sie auf den Standort "/ usr / local /" zu bewegen. Öffnen Sie root und die folgenden Befehle ein.

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

Schritt IV:

Für den Setzen oben von PATH und JAVA_HOME Variablen, fügen Sie die folgenden Befehle ein, um ~ / .bashrc-Datei.

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

Nun verifizieren die Installation mit dem Befehl java -version aus dem Terminal, wie oben erklärt.

Schritt 2: Verifizierung der Hadoop-Installation

Hadoop muss auf Ihrem System vor der Installation von Hive installiert werden. Lassen Sie uns verifizieren die Hadoop-Installation mitHilfe dem folgenden Befehl:

$ hadoop version

Wenn Hadoop ist bereits auf Ihrem System installiert ist, dann erhalten Sie die folgende Antwort:

Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 
Compiled by hortonmu on 2013-10-07T06:28Z 
Compiled with protoc 2.5.0 
From source with checksum 79e53ce7994d1628b240f09af91e1af4

Wenn Hadoop ist nicht auf Ihrem System installiert ist, Sie dann vorgehen mit den folgenden Schritten:

Herunterladen Hadoop

Herunterladen und Extrakt Hadoop 2.4.1 von Apache Software Foundation mitHilfe den folgenden Befehlen.

$ su
password:
# cd /usr/local
# wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Installieren von Hadoop in Pseudo verteilten Modus

Die folgenden Schritte werden verwendet, um Hadoop 2.4.1 in pseudo verteilten Modus installieren.

Schritt I: Einrichten oben Hadoop

Sie können setzen Hadoop Umgebungsvariablen durch Anhängen die folgenden Befehle ein, um ~/.bashrcDatei.

export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export
PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Nun anwenden alle Änderungen in die aktuelle laufende System.

$ source ~/.bashrc

Schritt II: Hadoop-Konfiguration

Sie können zu finden alle Hadoop-Konfigurations dateien in der Lage "$ HADOOP_HOME / etc / Hadoop". Sie müssen machen geeignete Änderung in dieser Konfigurationsdateien entsprechend Ihren Hadoop-Infrastruktur.

$ cd $HADOOP_HOME/etc/hadoop

Um Hadoop-Programme mitHilfe Java zu entwickeln, Sie haben rücksetzen um die Java-Umgebungsvariablen in hadoop-env.sh Datei durch Ersetzen JAVA_HOME Wert mit der Lage der Java in Ihre System.

export JAVA_HOME=/usr/local/jdk1.7.0_71

Da unten sind die Liste der Dateien, die Sie bearbeiten die Konfiguration Hadoop haben.

core-site.xml

Die Core-site.xml Datei enthält Informationen wie beispielsweise die Portnummer verwendet für Hadoop-Instanz, Speicher zugeteilt für das Dateisystem , Speichergrenze zum Speichern der Daten und der Größe des lesen / schreiben Puffer.

Öffnen Sie die Kern-site.xml und hinzufügen die folgenden Eigenschaften in zwischen der<Konfiguration> und </Konfiguration> Schlagworte.

<configuration>

   <property> 
      <name>fs.default.name</name> 
      <value>hdfs://localhost:9000</value> 
   </property>
   
</configuration>

hdfs-site.xml

Die HDFS-site.xml Datei enthält Informationen wie den Wert der Replikationsdaten, die namenode Pfad und der DataNode Pfad auf Ihres lokalen Dateisystemen. Es Mittel ist der platz wo Sie werden soll speichert die Hadoop Infra.

Nehmen wir an, die folgenden Daten.

dfs.replication (data replication value) = 1

(In the following path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)

namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

Öffnen Sie diese Datei und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.

<configuration>

   <property> 
      <name>dfs.replication</name> 
      <value>1</value> 
   </property> 
   <property> 
      <name>dfs.name.dir</name> 
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> 
   </property> 
   <property> 
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > 
   </property>
   
</configuration>

Hinweis: In der oben Datei sind alle Eigenschafts werte sind benutzerdefiniert und Sie können Änderungen nach Ihren Hadoop Infrastruktur machen.

yarn-site.xml

Diese Datei wird verwendet, um Garn in Hadoop konfigurieren. Öffnen Sie die Garn-Datei site.xml und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.

<configuration>

   <property> 
      <name>yarn.nodemanager.aux-services</name> 
      <value>mapreduce_shuffle</value> 
   </property>
   
</configuration>

mapred-site.xml

Diese Datei wird verwendet zu angeben um die MapReduce Framework wir sind verwenden. Standardmäßig Hadoop enthält eine Vorlage von Garn-site.xml. Zunächst ,Sie müssen kopieren die Datei von mapred site xml.template zu mapred-site.xml Datei mitHilfe den folgenden Befehl.

$ cp mapred-site.xml.template mapred-site.xml

Öffnen mapred- site.xml Datei und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.

<configuration>

   <property> 
      <name>mapreduce.framework.name</name> 
      <value>yarn</value> 
   </property>

</configuration>

Verifizieren der Hadoop-Installation

Die folgenden Schritte werden verwendet, um die Hadoop-Installation zu überprüfen.

Schritt I: Name Node-Setzen oben

Setzen oben die namenode mitHilfe dem Befehl “hdfs namenode -format” wie folgt ein.

$ cd ~
$ hdfs namenode -format

Das erwartete Ergebnis ist wie folgt.

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG: host = localhost/192.168.1.11 
STARTUP_MSG: args = [-format] 
STARTUP_MSG: version = 2.4.1 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
 ************************************************************/

Schritt II: Verifizieren Hadoop dfs

Mit dem folgenden Befehl wird verwendet, um dfs starten. Die Ausführung dieses Befehls werden Ihre Hadoop-Dateisystem zu starten.

$ start-dfs.sh

Die erwartete Ausgang ist, wie folgt:

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

Schritt III: Verifizieren Yarn Skript

Mit dem folgenden Befehl wird verwendet, um das Garn Skript zu starten. Die Ausführung dieses Befehls wird Ihre Garn Daemons zu starten.

$ start-yarn.sh

Die erwartete Ausgang ist, wie folgt:

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

Schritt IV: Zugriffen auf Hadoop Browser

Die Standard-Portnummer zu zugreifen Hadoop ist 50070. Verwenden Sie die folgende URL, um Hadoop-Dienste auf Ihren Browser bekommen.

http://localhost:50070/
Hadoop Browser

Schritt V: Verifizieren alle Anträge auf Cluster

Die Standard-Portnummer Zugriff für alle Anwendungen des Clusters ist 8088. Verwenden Sie die folgende URL, um diesen Dienst zu besuchen.

http://localhost:8088/
All Applications

Schritt 3: Herunterladen von Hive

Wir verwenden Ausgliederung 0.14.0 in diesem Tutorial. Sie können es, indem Sie den folgenden Link http://apache.petsads.us/hive/hive-0.14.0/. Nehmen wir an, es wird auf den / Downloads Verzeichnis heruntergeladen. Hier herunterladen wir Hive-Archiv mit dem Namen "Apache-hive-0.14.0-bin.tar.gz" für dieses Tutorial. Mit dem folgenden Befehl wird verwendet, um den Download zu überprüfen:

$ cd Downloads
$ ls

Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:

apache-hive-0.14.0-bin.tar.gz

Schritt 4: Installieren von Hive

Die folgenden Schritte sind für die Installation von Hive auf Ihrem System erforderlich. Nehmen wir an, das Hive-Archiv ist auf den / Downloads Verzeichnis heruntergeladen.

Extrahieren und Überprüfung Hive-Archiv

Mit dem folgenden Befehl wird verwendet, um den Herunterladen zu verifizieren, und extrahieren Sie die hive-Archiv:

$ tar zxvf apache-hive-0.14.0-bin.tar.gz
$ ls

Auf dem erfolgreichen Herunterladen, erhalten Sie die folgende Antwort zu sehen:

apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz

Kopieren von Dateien auf / usr / local / Bienenstock-Verzeichnis

Wir müssen die Dateien aus dem Super-User kopieren "su -". Die folgenden Befehle werden verwendet, um die Dateien aus dem extrahierten Verzeichnis in das Verzeichnis / usr / local / hive "Verzeichnis kopieren.

$ su -
passwd:

# cd /home/user/Download
# mv apache-hive-0.14.0-bin /usr/local/hive
# exit

Einrichten Umgebung für Hive

Sie können Setzen oben das Hive-Umgebung durch Anhängen die folgenden Zeilen in ~ / .bashrc Datei:

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.

Mit dem folgenden Befehl wird verwendet, um die Datei ~ / .bashrc ausführen.

$ source ~/.bashrc

Schritt 5: Konfigurieren der Hive

Zu konfigurieren Hive mit Hadoop , müssen Sie bearbeiten die hive-env.sh Datei, welche ist platziert in der $ HIVE_HOME / conf Verzeichnis . Die folgenden Befehle umzuleiten zu Hive config , Ordner und kopieren Sie die Vorlagendatei:

$ cd $HIVE_HOME/conf
$ cp hive-env.sh.template hive-env.sh

Bearbeiten Sie die hive-env.sh Datei durch Anhängen der folgenden Zeile:

export HADOOP_HOME=/usr/local/hadoop

Hive Installation erfolgreich abgeschlossen. Jetzt eine externe Datenbankserver benötigen Sie konfigurieren Metastore. Wir verwenden Apache Derby-Datenbank.

Schritt 6: Herunterladen und Installieren von Apache Derby

Führen Sie die unten angegebenen Schritte, um herunterzuladen und zu installieren Apache Derby:

Herunterladen Apache Derby

Mit dem folgenden Befehl wird verwendet, um Apache Derby herunterladen. Es dauert einige Zeit zum Download bereit.

$ cd ~
$ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz

Mit dem folgenden Befehl wird verwendet, um den Download zu überprüfen:

$ ls

Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:

db-derby-10.4.2.0-bin.tar.gz

Extrahieren und Überprüfung Derby Archiv

Die folgenden Befehle werden zum Extrahieren und Überprüfung der Derby-Archiv verwendet:

$ tar zxvf db-derby-10.4.2.0-bin.tar.gz
$ ls

Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:

db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz

Kopieren von Dateien auf / usr / local / derby Verzeichnis

Wir müssen von der Super-User kopieren "su -". Die folgenden Befehle werden verwendet, um die Dateien aus dem extrahierten Verzeichnis in das Verzeichnis / usr / local / derby Verzeichnis kopieren:

$ su -
passwd:
# cd /home/user
# mv db-derby-10.4.2.0-bin /usr/local/derby
# exit

Einrichten Umgebung für Derby

Sie können das Derby Umwelt durch Anhängen die folgenden Zeilen in ~ / .bashrc Datei:

export DERBY_HOME=/usr/local/derby
export PATH=$PATH:$DERBY_HOME/bin
Apache Hive
18
export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar

Mit dem folgenden Befehl wird verwendet, um ~ / .bashrc-Datei aus:

$ source ~/.bashrc

Erstellen Sie ein Verzeichnis zu auf Metastore speichern

Erstellen Sie ein Verzeichnis genannt Daten in $ DERBY_HOME Verzeichnis zu speichern Metastore Daten.

$ mkdir $DERBY_HOME/data

Derby Installation und Umwelt Setup ist jetzt abgeschlossen.

Schritt 7: Konfigurieren Metastore von Hive

Konfigurieren Metastore bedeutet Spezifizierung zu Hive wo die Datenbank gespeichert ist. Sie können dies,durch Redigieren die Bienenstock-site.xml-Datei, welche in der $ HIVE_HOME / conf Verzeichnis ist . Zunächst kopieren Sie die Vorlage-Datei mitHilfe dem folgenden Befehl:

$ cd $HIVE_HOME/conf
$ cp hive-default.xml.template hive-site.xml

Bearbeiten hive-site.xml und fügen Sie die folgenden Zeilen zwischen der & lt; Aufbau & gt; und & lt; / Konfiguration & gt; Tags:

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
   <description>JDBC connect string for a JDBC metastore </description>
</property>

Erstellen Sie eine Datei mit dem Namen jpox.properties und fügen Sie folgende Zeilen hinein:

javax.jdo.PersistenceManagerFactoryClass =

org.jpox.PersistenceManagerFactoryImpl
org.jpox.autoCreateSchema = false
org.jpox.validateTables = false
org.jpox.validateColumns = false
org.jpox.validateConstraints = false
org.jpox.storeManagerType = rdbms
org.jpox.autoCreateSchema = true
org.jpox.autoStartMechanismMode = checked
org.jpox.transactionIsolation = read_committed
javax.jdo.option.DetachAllOnCommit = true
javax.jdo.option.NontransactionalRead = true
javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver
javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true
javax.jdo.option.ConnectionUserName = APP
javax.jdo.option.ConnectionPassword = mine

Schritt 8: Überprüfen der Hive Installation

Bevor Sie Hive, müssen Sie den Ordner / tmp und einen separaten Ordner im Hive HDFS erstellen. Hier verwenden wir die / user / Nest / Lager Ordner . Sie müssen Schreibrechte für diese neu erstellten Ordner festgelegt wie folgt:

chmod g+w

Nun setzte sie an HDFS vor Überprüfung Hive. Verwenden Sie die folgenden Befehle ein:

$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp 
$ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp 
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse

Die folgenden Befehle werden verwendet, um Hive Installation zu überprüfen:

$ cd $HIVE_HOME
$ bin/hive

Auf erfolgreicher Installation des Hive, erhalten Sie die folgende Antwort zu sehen:

Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties 
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt
………………….
hive>

Der folgende Beispiel-Befehl ausgeführt wird, um alle Tabellen zu öffnen:

hive> show tables; 
OK 
Time taken: 2.798 seconds 
hive>
Advertisements