20101010895: CODIFICACIÓN DE CARACTERES ASCII Y UNICODE

La codificación de caracteres es el método que permite convertir un carácter de un lenguaje natural (alfabeto o silabario) en un símbolo de otro sistema de representación, como un número o una secuencia de pulsos eléctricos en un sistema electrónico, aplicando normas o reglas de codificación.

ASCII

ASCII , pronunciado generalmente , es un código de caracteres basado en el alfabeto latino, tal como se usa en inglés moderno y en otras lenguas occidentales. Fue creado en 1963 por el Comité Estadounidense de Estándares (ASA, conocido desde 1969 como el Instituto Estadounidense de Estándares Nacionales, o ANSI) como una refundición o evolución de los conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en 1967, se incluyeron las minúsculas, y se redefinieron algunos códigos de control para formar el código conocido como US-ASCII.

Actualmente los usuarios de ASCII usan menos los caracteres de control, (con algunas excepciones como "retorno de carro" o "nueva línea"). Los lenguajes modernos de etiquetas, los protocolos modernos de comunicación, el paso de dispositivos basados en texto a basados en gráficos, el declive de las teleimpresoras, las tarjetas perforadas y los papeles continuos han dejado obsoleta la mayoría de caracteres de control.

Binario	Decimal	Hex	Abreviatura	Repr	AT	Nombre/Significado
0000 0000	0	00	NUL	␀	^@	Carácter Nulo
0000 0001	1	01	SOH	␁	^A	Inicio de Encabezado
0000 0010	2	02	STX	␂	^B	Inicio de Texto
0000 0011	3	03	ETX	␃	^C	Fin de Texto
0000 0100	4	04	EOT	␄	^D	Fin de Transmisión
0000 0101	5	05	ENQ	␅	^E	Consulta
0000 0110	6	06	ACK	␆	^F	Acuse de recibo
0000 0111	7	07	BEL	␇	^G	Timbre
0000 1000	8	08	BS	␈	^H	Retroceso
0000 1001	9	09	HT	␉	^I	Tabulación horizontal
0000 1010	10	0A	LF	␊	^J	Salto de línea
0000 1011	11	0B	VT	␋	^K	Tabulación Vertical
0000 1100	12	0C	FF	␌	^L	De avance
0000 1101	13	0D	CR	␍	^M	Retorno de carro
0000 1110	14	0E	SO	␎	^N	Mayúsculas fuera
0000 1111	15	0F	SI	␏	^O	En mayúsculas
0001 0000	16	10	DLE	␐	^P	Enlace de datos / Escape
0001 0001	17	11	DC1	␑	^Q	Dispositivo de control 1 — oft. XON
0001 0010	18	12	DC2	␒	^R	Dispositivo de control 2
0001 0011	19	13	DC3	␓	^S	Dispositivo de control 3 — oft. XOFF
0001 0100	20	14	DC4	␔	^T	Dispositivo de control 4
0001 0101	21	15	NAK	␕	^U	Confirmación negativa
0001 0110	22	16	SYN	␖	^V	Síncrono en espera
0001 0111	23	17	ETB	␗	^W	Fin de Transmision del Bloque
0001 1000	24	18	CAN	␘	^X	Cancelar
0001 1001	25	19	EM	␙	^Y	Finalización del Medio
0001 1010	26	1A	SUB	␚	^Z	Substituto
0001 1011	27	1B	ESC	␛	^[ or ESC	Escape
0001 1100	28	1C	FS	␜	^\	Separador de fichero
0001 1101	29	1D	GS	␝	^]	Separador de grupo
0001 1110	30	1E	RS	␞	^^	Separador de registro
0001 1111	31	1F	US	␟	^_	Separador de unidad
0111 1111	127	7F	DEL	␡	^?, Delete o Backspace	Eliminar

CARACTERÍSTICAS IMPRIMIBLES DE ASCII

El código del carácter espacio, designa al espacio entre palabras, y se produce normalmente por la barra espaciadora de un teclado. Los códigos del 33 al 126 se conocen como caracteres imprimibles, y representan letras, dígitos, signos de puntuación y varios símbolos.

El ASCII de siete bits proporciona siete caracteres "nacionales" y, si la combinación concreta de hardware y software lo permite, puede utilizar combinaciones de teclas para simular otros caracteres internacionales: en estos casos un backspace puede preceder a un acento abierto o grave (en los estándares británico y americano, pero sólo en estos estándares, se llama también "opening single quotation mark"), una tilde o una "marca de respiración".

Binario	Dec	Hex	Representación
0010 0000	32	20	espacio ( )
0010 0001	33	21	!
0010 0010	34	22	"
0010 0011	35	23	#
0010 0100	36	24	$
0010 0101	37	25	%
0010 0110	38	26	&
0010 0111	39	27	'
0010 1000	40	28	(
0010 1001	41	29	)
0010 1010	42	2A	*
0010 1011	43	2B	+
0010 1100	44	2C	,
0010 1101	45	2D	-
0010 1110	46	2E	.
0010 1111	47	2F	/
0011 0000	48	30	0
0011 0001	49	31	1
0011 0010	50	32	2
0011 0011	51	33	3
0011 0100	52	34	4
0011 0101	53	35	5
0011 0110	54	36	6
0011 0111	55	37	7
0011 1000	56	38	8
0011 1001	57	39	9
0011 1010	58	3A	:
0011 1011	59	3B	;
0011 1100	60	3C	<
0011 1101	61	3D	=
0011 1110	62	3E	>
0011 1111	63	3F	?

Binario	Dec	Hex	Representación
0100 0000	64	40	@
0100 0001	65	41	A
0100 0010	66	42	B
0100 0011	67	43	C
0100 0100	68	44	D
0100 0101	69	45	E
0100 0110	70	46	F
0100 0111	71	47	G
0100 1000	72	48	H
0100 1001	73	49	I
0100 1010	74	4A	J
0100 1011	75	4B	K
0100 1100	76	4C	L
0100 1101	77	4D	M
0100 1110	78	4E	N
0100 1111	79	4F	O
0101 0000	80	50	P
0101 0001	81	51	Q
0101 0010	82	52	R
0101 0011	83	53	S
0101 0100	84	54	T
0101 0101	85	55	U
0101 0110	86	56	V
0101 0111	87	57	W
0101 1000	88	58	X
0101 1001	89	59	Y
0101 1010	90	5A	Z
0101 1011	91	5B	[
0101 1100	92	5C	\
0101 1101	93	5D	]
0101 1110	94	5E	^
0101 1111	95	5F	_

Binario	Dec	Hex	Representación
0110 0000	96	60	`
0110 0001	97	61	a
0110 0010	98	62	b
0110 0011	99	63	c
0110 0100	100	64	d
0110 0101	101	65	e
0110 0110	102	66	f
0110 0111	103	67	g
0110 1000	104	68	h
0110 1001	105	69	i
0110 1010	106	6A	j
0110 1011	107	6B	k
0110 1100	108	6C	l
0110 1101	109	6D	m
0110 1110	110	6E	n
0110 1111	111	6F	o
0111 0000	112	70	p
0111 0001	113	71	q
0111 0010	114	72	r
0111 0011	115	73	s
0111 0100	116	74	t
0111 0101	117	75	u
0111 0110	118	76	v
0111 0111	119	77	w
0111 1000	120	78	x
0111 1001	121	79	y
0111 1010	122	7A	z
0111 1011	123	7B	{
0111 1100	124	7C	\|
0111 1101	125	7D	}
0111 1110	126	7E	~

UNICODE

Unicode especifica un nombre e identificador numérico único para cada caracter o símbolo, el code point o punto de código, además de otras informaciones necesarias para su uso correcto: direccionalidad, capitalización y otros atributos. Unicode trata los caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introducción de marcas o caracteres de control.

Formas de codificación

Los puntos de código de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros. Lasformas de codificación de Unicode reglamentan la forma en que los puntos de código se transformarán en unidades tratables por el computador.

Unicode define tres formas de codificación bajo el nombre UTF o Formato de Transformación Unicode (Unicode Transformation Format):

UTF-8 — codificación orientada a byte con símbolos de longitud variable.
UTF-16 — codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP).
UTF-32 — codificación de 32 bits de longitud fija, y la más sencilla de las tres.

Las formas de codificación se limitan a describir el modo en que se representan los puntos de código en formato inteligible por la máquina. A partir de las 3 formas identificadas se definen 7 esquemas de codificación.

Esquemas de codificación

Los esquemas de codificación tratan de la forma en que se serializa la información codificada. La seguridad en los intercambios de información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y bytes y garantizar que la reconstrucción de la información es correcta. Una diferencia fundamental entre procesadores es el orden de disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificación deben garantizar que los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen 7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.

Esquema de codificación	Endianness	Admite BOM
UTF-8	No aplicable	Sí
UTF-16	Big-endian o Little-endian	Sí
UTF-16BE	Big-endian	No
UTF-16LE	Little-endian	No
UTF-32	Big-endian o Little-endian	Sí
UTF-32BE	Big-endian	No
UTF-32LE	Little-endian	No

Unicode define una marca especial, Byte order mark o BOM al inicio de un fichero o una comunicación para hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se asume que la ordenación de bytes es big-endian.

La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros esquemas.

20101010895

viernes, 15 de julio de 2011

CODIFICACIÓN DE CARACTERES ASCII Y UNICODE

Formas de codificación

Esquemas de codificación

No hay comentarios:

Publicar un comentario