ASCII
ASCII , pronunciado generalmente , es un código de caracteres basado en el alfabeto latino, tal como se usa en inglés moderno y en otras lenguas occidentales. Fue creado en 1963 por el Comité Estadounidense de Estándares (ASA, conocido desde 1969 como el Instituto Estadounidense de Estándares Nacionales, o ANSI) como una refundición o evolución de los conjuntos de códigos utilizados entonces en telegrafía. Más tarde, en 1967, se incluyeron las minúsculas, y se redefinieron algunos códigos de control para formar el código conocido como US-ASCII.
Actualmente los usuarios de ASCII usan menos los caracteres de control, (con algunas excepciones como "retorno de carro" o "nueva línea"). Los lenguajes modernos de etiquetas, los protocolos modernos de comunicación, el paso de dispositivos basados en texto a basados en gráficos, el declive de las teleimpresoras, las tarjetas perforadas y los papeles continuos han dejado obsoleta la mayoría de caracteres de control.
Binario | Decimal | Hex | Abreviatura | Repr | AT | Nombre/Significado |
---|---|---|---|---|---|---|
0000 0000 | 0 | 00 | NUL | ␀ | ^@ | Carácter Nulo |
0000 0001 | 1 | 01 | SOH | ␁ | ^A | Inicio de Encabezado |
0000 0010 | 2 | 02 | STX | ␂ | ^B | Inicio de Texto |
0000 0011 | 3 | 03 | ETX | ␃ | ^C | Fin de Texto |
0000 0100 | 4 | 04 | EOT | ␄ | ^D | Fin de Transmisión |
0000 0101 | 5 | 05 | ENQ | ␅ | ^E | Consulta |
0000 0110 | 6 | 06 | ACK | ␆ | ^F | Acuse de recibo |
0000 0111 | 7 | 07 | BEL | ␇ | ^G | Timbre |
0000 1000 | 8 | 08 | BS | ␈ | ^H | Retroceso |
0000 1001 | 9 | 09 | HT | ␉ | ^I | Tabulación horizontal |
0000 1010 | 10 | 0A | LF | ␊ | ^J | Salto de línea |
0000 1011 | 11 | 0B | VT | ␋ | ^K | Tabulación Vertical |
0000 1100 | 12 | 0C | FF | ␌ | ^L | De avance |
0000 1101 | 13 | 0D | CR | ␍ | ^M | Retorno de carro |
0000 1110 | 14 | 0E | SO | ␎ | ^N | Mayúsculas fuera |
0000 1111 | 15 | 0F | SI | ␏ | ^O | En mayúsculas |
0001 0000 | 16 | 10 | DLE | ␐ | ^P | Enlace de datos / Escape |
0001 0001 | 17 | 11 | DC1 | ␑ | ^Q | Dispositivo de control 1 — oft. XON |
0001 0010 | 18 | 12 | DC2 | ␒ | ^R | Dispositivo de control 2 |
0001 0011 | 19 | 13 | DC3 | ␓ | ^S | Dispositivo de control 3 — oft. XOFF |
0001 0100 | 20 | 14 | DC4 | ␔ | ^T | Dispositivo de control 4 |
0001 0101 | 21 | 15 | NAK | ␕ | ^U | Confirmación negativa |
0001 0110 | 22 | 16 | SYN | ␖ | ^V | Síncrono en espera |
0001 0111 | 23 | 17 | ETB | ␗ | ^W | Fin de Transmision del Bloque |
0001 1000 | 24 | 18 | CAN | ␘ | ^X | Cancelar |
0001 1001 | 25 | 19 | EM | ␙ | ^Y | Finalización del Medio |
0001 1010 | 26 | 1A | SUB | ␚ | ^Z | Substituto |
0001 1011 | 27 | 1B | ESC | ␛ | ^[ or ESC | Escape |
0001 1100 | 28 | 1C | FS | ␜ | ^\ | Separador de fichero |
0001 1101 | 29 | 1D | GS | ␝ | ^] | Separador de grupo |
0001 1110 | 30 | 1E | RS | ␞ | ^^ | Separador de registro |
0001 1111 | 31 | 1F | US | ␟ | ^_ | Separador de unidad |
0111 1111 | 127 | 7F | DEL | ␡ | ^?, Delete o Backspace | Eliminar |
CARACTERÍSTICAS IMPRIMIBLES DE ASCII
El código del carácter espacio, designa al espacio entre palabras, y se produce normalmente por la barra espaciadora de un teclado. Los códigos del 33 al 126 se conocen como caracteres imprimibles, y representan letras, dígitos, signos de puntuación y varios símbolos.
El ASCII de siete bits proporciona siete caracteres "nacionales" y, si la combinación concreta de hardware y software lo permite, puede utilizar combinaciones de teclas para simular otros caracteres internacionales: en estos casos un backspace puede preceder a un acento abierto o grave (en los estándares británico y americano, pero sólo en estos estándares, se llama también "opening single quotation mark"), una tilde o una "marca de respiración".
|
|
|
UNICODE
Unicode especifica un nombre e identificador numérico único para cada caracter o símbolo, el code point o punto de código, además de otras informaciones necesarias para su uso correcto: direccionalidad, capitalización y otros atributos. Unicode trata los caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introducción de marcas o caracteres de control.
Formas de codificación
Los puntos de código de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros. Lasformas de codificación de Unicode reglamentan la forma en que los puntos de código se transformarán en unidades tratables por el computador.
Unicode define tres formas de codificación bajo el nombre UTF o Formato de Transformación Unicode (Unicode Transformation Format):
- UTF-8 — codificación orientada a byte con símbolos de longitud variable.
- UTF-16 — codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP).
- UTF-32 — codificación de 32 bits de longitud fija, y la más sencilla de las tres.
Las formas de codificación se limitan a describir el modo en que se representan los puntos de código en formato inteligible por la máquina. A partir de las 3 formas identificadas se definen 7 esquemas de codificación.
Esquemas de codificación
Los esquemas de codificación tratan de la forma en que se serializa la información codificada. La seguridad en los intercambios de información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y bytes y garantizar que la reconstrucción de la información es correcta. Una diferencia fundamental entre procesadores es el orden de disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificación deben garantizar que los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen 7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.
Esquema de codificación | Endianness | Admite BOM |
UTF-8 | No aplicable | Sí |
UTF-16 | Big-endian o Little-endian | Sí |
UTF-16BE | Big-endian | No |
UTF-16LE | Little-endian | No |
UTF-32 | Big-endian o Little-endian | Sí |
UTF-32BE | Big-endian | No |
UTF-32LE | Little-endian | No |
Unicode define una marca especial, Byte order mark o BOM al inicio de un fichero o una comunicación para hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se asume que la ordenación de bytes es big-endian.
La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros esquemas.
No hay comentarios:
Publicar un comentario