Centre d‘Information

UTF-16

Le format de codage UTF-16 est le plus ancien de tous les formats de codage Unicode et est optimisé pour les caractères les plus couramment utilisés du plan multilingue de base (Basic Multilingual Plane, BMP). Les caractères Unicode dont le code est compris entre U+0000 et U+FFFF se trouvent dans le plan multilingue de base. Ce sont des écritures latines et autres européennes et leurs symboles, des écritures africaines et asiatiques. Les caractères de cette plage sont directement mappés sur les deux octets (16 bits) d’une unité de code UTF-16.

Ainsi, le codage UTF-16 convient mieux aux caractères de cette zone, même s’il faut deux fois plus d’espace pour les textes ASCII ou ANSI purs par rapport à un codage ANSI ou UTF-8, car pour les caractères ASCII ou ANSI, un seul octet (au lieu de deux octets) est utilisé pour stocker les caractères ASCII dans les codages UTF-8 et ANSI.

UTF-16 Little Endian est la représentation interne du texte et du format utilisé pour des chaînes dans Windows 2000 / XP / 2003 / Vista / 7 / 10 (et les autres versions Windows intermédiaires) et est ce qui est compris dans l’éditeur Windows sous le codage nommé "Unicode". De plus, d’autres systèmes d’exploitation tels que macOS ou Symbian utilisent UTF-16 comme encodage standard.

Big Endian et Little Endian peuvent tous deux être utilisés pour stocker des textes codés UTF-16. La marque d’ordre d’octet (Byte Order Mark, BOM) pour UTF-16 Big Endian est FE FF et FF FE pour UTF-16 Little Endian. Voir Endianness et Byte Order Mark pour plus d’informations.