detectando utf8

Detectando UTF8 en C

Enviado por clbustos el Mar, 27/12/2005 - 01:07.

Como no tengo ganas de seguir haciendo informes de Zulliger, acabo de terminar mi detector de UTF-8 en C. Demoré 5 minutos en captar que la variable que almacena cada byte debía ser un unsigned char en vez de un char para realizar las comprobaciones correspondientes. El código es muy similar al de PHP; me di cuenta que la comprobación por bit es más rápida que la por valor (mayor a 128), así que corregiré la entrada correspondiente en el artículo de PHP.

Utilizo iconv para realizar la transformación de ISO-8859-1 en UTF-8. La forma de realizar el traspaso la tome de The GNU C Library: A complete iconv example, así que disculpen las brutalidades

Detectando UTF8 en PHP

Enviado por clbustos el Lun, 26/12/2005 - 23:53.

No resistí la tentación de hacer lo mismo que hice en Detectando UTF-8 en Ruby, pero en PHP. El resultado es el siguiente:

Detectando UTF8 en ruby

Enviado por clbustos el Sáb, 24/12/2005 - 03:59.

Trabajando en catori, me di cuenta que era muy conveniente transformar todos los datos de los archivos, tales como el nombre del artista y ese tipo de cosas, en UTF-8. El problema, claro está, es saber si el string ya está en el código citado. La siguiente adición a la clase String permite, de forma muy bruta, determinar si estamos ante ascii, utf8 o iso-8859-1. Para convertir a utf8, se requiere tener la extensión 'iconv' de ruby.

Cuando tenga un poco de tiempo, voy a portar a C esta adición, ya que la utilizo mucho y en el lenguaje de la letrita podría ganar algunos valiosos segundos

Distribuir contenido