utf8

Detectando UTF8 en C

Enviado por clbustos el Mar, 27/12/2005 - 01:07.

Como no tengo ganas de seguir haciendo informes de Zulliger, acabo de terminar mi detector de UTF-8 en C. Demoré 5 minutos en captar que la variable que almacena cada byte debía ser un unsigned char en vez de un char para realizar las comprobaciones correspondientes. El código es muy similar al de PHP; me di cuenta que la comprobación por bit es más rápida que la por valor (mayor a 128), así que corregiré la entrada correspondiente en el artículo de PHP.

Utilizo iconv para realizar la transformación de ISO-8859-1 en UTF-8. La forma de realizar el traspaso la tome de The GNU C Library: A complete iconv example, así que disculpen las brutalidades

Detectando UTF8 en PHP

Enviado por clbustos el Lun, 26/12/2005 - 23:53.

No resistí la tentación de hacer lo mismo que hice en Detectando UTF-8 en Ruby, pero en PHP. El resultado es el siguiente:

Detectando UTF8 en ruby

Enviado por clbustos el Sáb, 24/12/2005 - 03:59.

Trabajando en catori, me di cuenta que era muy conveniente transformar todos los datos de los archivos, tales como el nombre del artista y ese tipo de cosas, en UTF-8. El problema, claro está, es saber si el string ya está en el código citado. La siguiente adición a la clase String permite, de forma muy bruta, determinar si estamos ante ascii, utf8 o iso-8859-1. Para convertir a utf8, se requiere tener la extensión 'iconv' de ruby.

Cuando tenga un poco de tiempo, voy a portar a C esta adición, ya que la utilizo mucho y en el lenguaje de la letrita podría ganar algunos valiosos segundos

¿Que onda con UTF-8? Sets de caracteres, la web y Ajax

Enviado por clbustos el Jue, 09/06/2005 - 10:30.

Objetivo

Al finalizar este artículo, el lector, si logra traducir algo de mi verborrea, será capaz de

  • Entender de forma bastante vaga que son las codificaciones de caracteres
  • Decir, ¡A,ha!, cuando lea ASCII, ISO-8859-1, Unicode y UTF-8
  • Entender como maneja el objeto XMLHttpRequest los set de caracteres en Firefox e IE
  • Realizar aplicaciones que manejen de modo adecuado las codificaciones y decodificaciones de UTF-8 a ISO-8859-1 en PHP

Dicho esto, pueden leer el texto

Distribuir contenido