HTML Codifica Caratteri

La Codifica dei caratteri è un metodo di conversione di byte in caratteri. Per convalidare o visualizzare correttamente un documento HTML, un programma deve scegliere una corretta codifica dei caratteri.

Il set di caratteri più comune, utilizzato per impostare o codificare i caratteri nei computer è l' ASCII The American Standard Code for Information Interchange, che è probabilmente il più utilizzato per impostare la codifica dei testi elettronici.

La codifica ASCII supporta solo le lettere maiuscole e minuscole dell'alfabeto latino , i numeri 0-9, e alcuni altri caratteri, per un totale di 128 caratteri. Si può dare uno sguardo al set completo qui Codici ASCII

Tuttavia, in molte lingue vengono utilizzati entrambi i caratteri Latini accentati o alfabeti completamente diversi. ASCII non gestisce questi caratteri; Pertanto se si desidera utilizzare caratteri non ASCII è necessario imparare la codifica dei caratteri.

L'International Standards Organization ha creato una serie di set di caratteri per essere utilizzati con i diversi caratteri nazionali. Per i documenti in Inglese e per la maggior parte delle altre lingue dell'Europa occidentale, viene utilizzata la codifica (ampiamente supportata) ISO-8859-1.

Ecco l'elenco dei set di caratteri in uso in tutto il mondo e la loro descrizione.

Character Set	Descrizione
ISO-8859-1	Alfabeto Latino parte 1 Utilizzato per Nord America, Europa Occidentale , America Latina, Caraibi, Canada, Africa
ISO-8859-2	Alfabeto Latino parte 2 Utilizzato per Europa Orientale
ISO-8859-3	Alfabeto Latino parte 3 Utilizzato per SE Europa, Esperanto, varie altre
ISO-8859-4	Alfabeto Latino parte 4 Utilizzato per Scandinavia/Baltiche (ed altre non presenti in ISO-8859-1)
ISO-8859-5	Alfabeto Latino/Cirillico parte 5
ISO-8859-6	Alfabeto Latino/Arabico parte 6
ISO-8859-7	Alfabeto Latino/Greek parte 7
ISO-8859-8	Alfabeto Latino/Ebreo parte 8
ISO-8859-9	Alfabeto Latino 5 parte 9 Uguale a ISO-8859-1 eccetto per i caratteri Turki rimpiazzati con quelli Islandesi
ISO-8859-10	Latino 6 Latin 6 Lappone, Nordico, and Eschimese
ISO-8859-15	Uguale a ISO-8859-1 ma con l'aggiunta di molti caratteri
ISO-2022-JP	Alfabeto Latino/Giapponese parte 1
ISO-2022-JP-2	Alfabeto Latin/Giapponese parte 2
ISO-2022-KR	Alfabeto Latino/Koreano parte 1

In seguito è stato istituito l' Unicode Consortium per escogitare un modo per mostrare tutti i caratteri, piuttosto che avere diversi codici di caratteri incompatibili per le lingue diverse.

Pertanto, se si desidera creare documenti che utilizzano caratteri da più set di caratteri, si potrà utilizzare le singole codifiche di caratteri Unicode.

Unicode specifica quindi delle codifiche che possono trattare le stringhe in modo da rendere lo spazio per il set di caratteri sufficiente per numero enorme di caratteri che essa comprende. Questi sono noti come UTF-8, UTF-16 e UTF-32.

Character Set	Descrizione
UTF-8	Un Unicode Translation Format che è formato da soli 8-bit, si misura in bytes. Un carattere in UTF8 può essere lunga da 1 a 4 bytes, formando un UTF8.
UTF-16	Un Unicode Translation Format che è formato da 16-bit, si misura in shorts. Può essere lungo 1 o 2 short, formando un UTF16.
UTF-32	Un Unicode Translation Format che è formato da 32-bit, si misura in longs. È sempre formato da 1 longs.

I primi 256 caratteri del set Unicode corrispondono ai 256 caratteri di ISO-8859-1.

Di default, il preprocessore di HTML dovrebbero supportare UTF-8, e tutti i processori XML si suppone che supportino UTF8 e UTF16, quindi tutti i processori XHTML devono supportare UTF16.