por
pobrecito hablador
el Jueves, 13 Septiembre de 2007, 16:29h
(#959114)
Por supuesto. Todo a UTF8 y no hay problema
La frase "Todo a UTF-8 y no hay problema" define al programador que la dice o más bien, el nivel de su lenguaje:-)
UTF-8 es un infierno. Para saber algo tan tonto como cuántos caracteres tiene una cadena hay que ir leyendo un byte, interpretar bits para ver si el siguiente byte también forma parte del carácter e igual con los consecutivos (hay caracteres de 1, 2, 3 y 4 bytes). Complejo y lento sobre todo.
Los únicos puntos fuertes que tiene es que es compacto y es compatible con las cadenas antiguas si te limitas a ascii-7, también funcionan las búsquedas de Boyer-Moore sin cambiar una línea. Todo lo demás son quebraderos de cabeza a menos, claro, que te sitúes a kilómetros de esa complejidad detrás de capas de Java que te aíslen de los peligrosos bytes y de lo que circula por los cables:-)
Si no tienes que pasar por Internet usa UTF-16. El desempeño seguramente será mejor y los programadores te lo agradecerán.
Re:La gran olvidada
(Puntos:1, Interesante)UTF-8 es un infierno. Para saber algo tan tonto como cuántos caracteres tiene una cadena hay que ir leyendo un byte, interpretar bits para ver si el siguiente byte también forma parte del carácter e igual con los consecutivos (hay caracteres de 1, 2, 3 y 4 bytes). Complejo y lento sobre todo.
Los únicos puntos fuertes que tiene es que es compacto y es compatible con las cadenas antiguas si te limitas a ascii-7, también funcionan las búsquedas de Boyer-Moore sin cambiar una línea. Todo lo demás son quebraderos de cabeza a menos, claro, que te sitúes a kilómetros de esa complejidad detrás de capas de Java que te aíslen de los peligrosos bytes y de lo que circula por los cables
Si no tienes que pasar por Internet usa UTF-16. El desempeño seguramente será mejor y los programadores te lo agradecerán.