Centre d‘Information

UTF-32

Dans le codage Unicode UTF-32, chaque caractère est codé avec quatre octets (32 bits). Le résultat est une exigence de mémoire plus importante par rapport à tous les autres encodages, car tous les autres encodages utilisent des longueurs d’octets variables pour un caractère. Cependant, cela présente également l’avantage que les fichiers ou flux codés en UTF-32 sont plus faciles à manipuler et à traiter, car chaque octet a exactement sa place et qu’il ne peut y avoir de longueur variable.

Un avantage de ce codage est qu’il est très facile d’accéder à un caractère spécifique en mémoire et que la longueur d’un texte peut être rapidement déterminée en conséquence en divisant simplement le nombre d’octets par quatre.

Un inconvénient décisif est le besoin accru de mémoire. Par rapport aux textes composés de lettres latines, stockés en UTF-7, UTF-8 ou ANSI, les besoins en mémoire du codage UTF-32 sont quatre fois supérieurs. Même si vous utilisez d’autres caractères tels que des lettres cyrilliques ou grecques, UTF-32 a besoin de beaucoup plus de mémoire, car dans tous les autres encodages, seuls les caractères moins utilisés et inhabituels sont codés sur quatre octets.

UTF-32 peut être stocké en tant que Big Endian et Little Endian. La marque d’ordre d’octet (byte order mark) pour un stockage en tant que Big Endian est donc 00 00 FE FF, pour Little Endian FF FE 00 00, en conséquence. Voir Endianness et Byte Oder Mark pour plus d’informations.