Centre d‘Information

UTF-7

UTF-7 est un codage utilisé pour coder les caractères Unicode en utilisant uniquement la plage de caractères ASCII. Ce codage présente l’avantage que, même dans les environnements ou les systèmes d’exploitation ne comprenant que l’ASCII 7 bits, les caractères Unicode peuvent être représentés et transférés.

Par exemple, certains protocoles Internet tels que SMTP pour le courrier électronique, n’autorisent que les 128 caractères ASCII et tous les autres octets plus grands ne sont pas autorisés. Tous les autres codages UTF utilisent au moins 8 bits, de sorte qu’ils ne peuvent pas être utilisés à ces fins.

Les caractères A à Z, a à z, 0 à 9 et les caractères spéciaux ' ( ) , . / : - ? restent dans le codage tels quels. Ainsi, les textes composés principalement de caractères ASCII restent largement lisibles. Les caractères ASCII ! " # $ % & * ; < = > @ [ ] ^ _ ` { | } peuvent rester tels quels, mais doivent être codés, car ils peuvent ne pas être compris par tous les programmes et protocoles. Tous les autres caractères sont encodés et également convertis en caractères ASCII. Le + marque le début d’un tel encodage, le - (ou tout autre caractère ne pouvant figurer dans l’encodage) marque la fin.

Le mot allemand pour "fromage", "Käse", par exemple, serait codé comme K+AOQ-se. Les caractères ASCII K, s et e restent les mêmes, alors que "ä" est converti en AOQ (autres caractères ASCII). Le début et la fin de cette séquence sont marqués par - et +.

Bien que UTF-7 ait une grande efficacité de codage, il ne pourrait pas prévaloir car le décodage et le codage sont relativement difficiles, des codages comme UTF-8 peuvent être compris par la plupart des logiciels et la limitation à 7 bits importe peu.