Formats pris en charge
Avec le TextConverter, les textes et les fichiers texte arbitraires peuvent être modifiés quel que soit leurs formats. Celles-ci peuvent être, par exemple, des fichiers texte brut qui ont habituellement l'extension de fichier TXT, des fichiers CSV qui ont habituellement l'un des extensions de fichiers CSV ou TSV, des fichiers dans des formats basés sur XML qui, par exemple, peuvent avoir les terminaisons du fichier XML, XHTML, HTML, HTM, RSS ou SVG, fichiers de code source tels que PHP, JS, BAT, CMD, SH, VBS, C, CPP, CS, PAS, PY ou R ainsi que tous les autres formats de texte tels que JSON, SQL, Dif, CSS ou INI - juste pour en énumérer certains.
Documents PDF ou documents de bureau tels que Microsoft Word Documents (DOC, DOCX), Microsoft Excel Spreadsheets (XLS, XLSX) ou d'autres fichiers de bureau tels que ODT, ODS, PPT ou PPTX ne peuvent pas être traités avec le TextConverter, car en interne, ces formats ne sont pas fichiers texte. Cependant, il est possible d'exporter des fichiers texte et des fichiers CSV avec le TextConverter dans les formats DOCX, ODT, XLSX, ODS et en tant qu'image (JPG, PNG, BMP).
Le TextConverter propose de nombreuses actions pour traiter les textes et les fichiers texte. Avec les actions de traitement de l'ensemble du texte et avec les actions de modification des lignes, tous les textes et fichiers texte de n'importe quel format peuvent être modifiés. De plus, le TextConverter fournit quelques actions spécifiques au format pour le traitement des fichiers CSV et le traitement des fichiers XML.
Quel que soit le format d'un fichier texte, un fichier texte peut être stocké dans différents encodages et en utilisant différents types de saut de ligne. Dans les deux tables suivantes, vous pouvez voir quels codages et types de sauts de ligne sont pris en charge par le TextConverter.
Encodages
Dans le tableau suivant, vous pouvez voir un aperçu de tous les encodages pris en charge par le TextConverter. Ces encodages peuvent être lus, écrits et modifiés par le TextConverter.
Si vous utilisez le TextConverter avec ses paramètres par défaut - cela signifie sans modifier aucun paramètre - le TextConverter essaiera de déterminer automatiquement le codage d'un fichier. Le TextConverter utilisera ensuite cet encodage pour stocker le fichier correspondant. Donc, si vous souhaitez seulement modifier le contenu d'un fichier texte (par exemple avec des remplacements de texte), vous n'avez pas à vous soucier des paramètres de codage.
Si vous souhaitez modifier l'encodage des fichiers ou si vous souhaitez lire des fichiers en utilisant un encodage spécifique, vous pouvez utiliser les paramètres sous "Actions > Fichiers > Encodage". En plus des options de lecture et d'écriture, vous trouverez également une option concernant la question de savoir si une marque d’ordre d’octets (byte order mark) doit être écrite dans les fichiers ou non. Dans la colonne "BOM" dans le tableau, vous pouvez voir si un codage facilite les marques d’ordre d’octets ou non.
Aussi dans le cas, vous contrôlez le TextConverter via la ligne de commande ou via un script, sans spécifier un codage explicite pour lire ou enregistrer le fichier, le codage est automatiquement déterminé pendant la lecture et également utilisé à nouveau pour l'écriture. Si vous souhaitez s'écarter de ce comportement par défaut, vous pouvez utiliser les valeurs de la colonne "Paramètre" de la table. Une introduction et des exemples de l'utilisation des paramètres peuvent être trouvés dans l'article sur le contrôle du script du TextConverter dans la section sur les paramètres du codage.
Codage | Description | BOM | Paramètre |
ASCII | Codage 7 bits avec 128 caractères (00 à 7F) | non | ascii |
Latin-1 | Codage 8 bits selon ISO 8859-1 | non | latin1 |
Latin-2 | Codage 8 bits selon ISO 8859-2 | non | latin2 |
WIN-ANSI | Page de Code ANSI dépendante de la langue de votre installation Windows | non | win-ansi |
WIN-1250 | Page de Code Windows 1250 (Europe Centrale) | non | win-1250 |
WIN-1251 | Page de Code Windows 1251 (Cyrillique) | non | win-1251 |
WIN-1252 | Page de Code Windows 1252 (Europe de l’Ouest) | non | win-1252 |
WIN-1253 | Page de Code Windows 1253 (Grec) | non | win-1253 |
CP437 | Code Page 437 (CP437, IBM437, OEM-US) | non | cp437 |
UTF-7 | Pour l’utilisation d’Unicode dans les environnements non-8 bits | oui | utf7 |
UTF-8 | Encodage Unicode avec de 1 à 4 octets variables par caractère | oui | utf8 |
UTF-16 LE | Encodage Unicode à 2 ou 4 octets variables par caractère, Little Endian | oui | utf16le |
UTF-16 BE | Encodage Unicode à 2 ou 4 octets variables par caractère, Big Endian | oui | utf16be |
UTF-32 LE | Encodage Unicode avec 4 octets fixes par caractère, Little Endian | oui | utf32le |
UTF-32 BE | Encodage Unicode avec 4 octets fixes par caractère, Big Endian | oui | utf32be |
Vous pouvez en savoir plus sur les encodages et leurs différences dans l'introduction aux formats de fichiers texte Unicode.
Types de Sauts de Ligne
Dans le tableau suivant, vous pouvez voir un aperçu de tous les types de saut de ligne fournies par le TextConverter. Étant donné que le TextConverter prend également en charge les sauts de ligne à des caractères ou des points de code personnalisés, vous n'êtes pas lié à cette sélection, mais vous pouvez également définir et utiliser vos propres sauts de lignes à un ou plusieurs caractères ou points de code.
Si le TextConverter est utilisé sans définir explicitement un type de saut de ligne pour la lecture ou l'écriture, le TextConverter essaiera de déterminer automatiquement le type de saut de ligne utilisé dans un texte ou fichier texte dans ses paramètres par défaut. Ce type de saut de ligne est ensuite également réutilisé pour le stockage du fichier. Si vous souhaitez modifier le type de saut de ligne d'un fichier ou lire des fichiers à l'aide d'une saut de ligne spécifique, vous pouvez utiliser les paramètres sous "Actions > Fichiers > Type de Saut de Ligne".
Si vous souhaitez modifier le type de saut de ligne de fichiers via un script ou via la ligne de commande avec le TextConverter ou si vous souhaitez utiliser un type de saut de ligne spécifique pour la lecture des fichiers, vous pouvez utiliser les valeurs de la colonne "Paramètre". Vous pouvez découvrir comment vous pouvez contrôler le TextConverter en mode batch avec les paramètres du type de saut de ligne dans l'article sur le contrôle du script du TextConverter dans le section sur les paramètres du type de saut de ligne.
Saut de Ligne | Système / Désignation | Code Point | Paramètre |
CRLF | Windows, DOS, OS/2, CP/M, Symbian, Palm, Atari | U+000D + U+000A | crlf |
LF | Unix, Linux, macOS, Mac OS X, Android, AmigaOS, BSD | U+000A | lf |
CR | Classic Mac OS, Apple II, Commodore C64, OS-9 | U+000D | cr |
NL | EBCDIC New Line - IBM Mainframe Systems | U+0015 | nl |
RNL | EBCDIC Require New Line | U+0006 | rnl |
LF | EBCDIC Line Feed | U+0025 | lf_ebcdic |
EOL | ATASCII End Of Line | U+009B | eol |
GS | Group Separator | U+001D | gs |
RS | Record Separator | U+001E | rs |
US | Unit Separator | U+001F | us |
FF | Unicode Form Feed | U+000C | ff |
NEL | Unicode Next Line | U+0085 | nel |
LS | Unicode Line Separator | U+2028 | ls |
PS | Unicode Paragraph Separator | U+2029 | ps |
VT | Vertical Tab | U+000B | vt |
TAB | Horizontal Tab | U+0009 | tab |
FIXED | Longueur de ligne fixe con x Caractères | - | fixedlength-x |
NOCHAR | Pas de caractère | - | nochar |
- | Saut de Ligne au Caractère x | - | customstr-x |
- | Saut de Ligne au Point de Code x | - | customcp-x |
- | Saut de Ligne à l'un des Caractères x, y ou z | - | customstrs-x,y,z |
- | Saut de Ligne à l'un des Points de Code x, y ou z | - | customcps-x,y,z |
Vous pouvez en savoir plus sur les différents types de saut de ligne dans l'introduction aux sauts de ligne.
Sauts de Ligne défini par l'Utilisateur
Si vous souhaitez travailler avec des actions de ligne ou si vous souhaitez modifier le type de saut de ligne de fichiers ou de textes à l'aide du TextConverter, vous n'êtes pas limité aux types de sauts de ligne indiqués dans le tableau. Cette sélection n'est que la liste des types de sauts de ligne prédéfinis, que vous pouvez sélectionner directement dans la liste déroulante dans le TextConverter.
Afin de définir les sauts de ligne définies par l'utilisateur à un ou plusieurs caractères ou points de code arbitraires, vous pouvez vous rendre sur "Actions > Fichiers > Type de Saut de Ligne > Lire comme" ou "Actions > Fichiers > Type de Saut de Ligne > Sauver sous" et sélectionner soit "Caractère personnalisé" ou "Point de Code personnalisé" de la liste déroulante - selon que vous souhaitez spécifier le saut de ligne pour la lecture et/ou l'écriture en tant que caractère ou comme codepoint. Après cette sélection, un champ de saisie apparaît dans lequel vous pouvez écrire le saut de ligne souhaitée.
Si vous sélectionnez "Caractère personnalisé", vous pouvez saisir directement le caractère ou les caractères du champ de saisie qui doivent être interprétés comme un saut de ligne lors de la lecture ou de l'écriture. Ainsi, par exemple "|" ou "--".
Si vous sélectionnez "Point de Code personnalisé", vous avez la possibilité d'entrer votre saut de ligne sous la forme d'un ou plusieurs points de code. Cela a l'avantage sur la spécification en tant que caractère que vous pouvez également spécifier facilement des caractères invisibles ou non prévusables. Les points de code peuvent être écrits soit hexadécimaux, décimaux ou sous la forme U+X. Afin de définir le saut de ligne Windows CR LF comme un point de code personnalisé, vous pouvez, par exemple, utiliser les formats "#0D#0A" (hexadécimal), "13 10" (décimal), "U+0D U+0A" ou "U+000D U+000A".
Si vous contrôlez le TextConverter via la ligne de commande ou un script, les sauts de ligne personnalisée peut être passé via les paramètres customstr-x et customcp-x. Avec customstr-x, vous pouvez transmettre des caractères et avec customcp-x vous pouvez transmettre des points de code. Par exemple, customstr-ab (saut de ligne à la chaîne "AB") ou customcp-#0D#0A (saut de ligne au saut de ligne Windows CR LF définie par les points de code #0D#0A en notation hexadécimale). D'autres exemples de l'utilisation des paramètres pour les sauts de ligne personnalisés peuvent être trouvés dans le tutoriel pour le contrôle du script du TextEncoder dans la section "Caractères personnalisés pour les Sauts de Ligne". Même si ce tutoriel concerne le TextEncoder, vous pouvez également utiliser les exemples illustrés pour le TextConverter.
Lignes avec une Longueur de Ligne Fixe
En plus des sauts de ligne sur un ou plusieurs caractères, le TextConverter prend également en charge la lecture et l'enregistrement des textes et des fichiers texte avec une longueur de ligne fixe. Cela signifie que la fin d'une ligne n'est pas définie par un certain caractère ou un certain codepoint, mais par un nombre défini de caractères. Par exemple, par la définition qu'une ligne se compose toujours de 10 caractères.
Dans le TextConverter, sous "Actions > Fichiers > Type de Saut de Ligne > Lire comme" vous pouvez sélectionner l'option "Saut de ligne après ce nombre de caractères (longueur de ligne fixe)" et entrez le nombre de caractères souhaité. Sous "Sauver sous" vous pouvez sélectionner "Pas de caractère" si vous souhaitez conserver ce type de saut de ligne. Sinon, sélectionnez simplement un autre type de saut de ligne afin de modifier le type de saut de ligne de votre texte.
Une explication plus détaillée sur le travail avec des fichiers avec une longueur de ligne fixe peut être trouvée dans le tutoriel sur la réécriture des fichiers texte avec une longueur de ligne fixe. Ce tutoriel est écrit pour le TextEncoder, mais vous pouvez également tout utiliser pour le TextConverter.
Sauts de Ligne en plusieurs Caractères
Typiquement, les sauts de ligne sont définies par un seul caractère fixe ou par une seule chaîne fixe. Par exemple, avec le caractère fixe LF (Unix, Linux, macOS) ou la chaîne fixe CR LF (Windows). Ce saut de ligne reste constante sur l'ensemble du fichier ou le texte entier et aucun autre caractère n'est interprété comme un saut de ligne.
Cependant, avec le TextConverter, vous pouvez s'écarter de cette règle rigide et vous êtes également en mesure de définir plusieurs caractères ou plusieurs chaînes qui sont interprétées indépendamment les unes des autres comme un saut de ligne. Par exemple, non seulement CR LF, mais aussi LF. Cette fonction peut être utile, par exemple, si des fichiers texte de différents systèmes ont été copiés dans un seul fichier et que ce fichier doit être réparé. Cela signifie que le TextConverter pourrait être utilisé à ce stade pour lire le fichier en tenant compte des deux types de saut de ligne afin d'enregistrer ensuite le fichier avec un type de saut de ligne uniforme et fixe.
Si vous souhaitez utiliser le TextConverter via l'interface utilisateur graphique et définir les sauts de ligne à plusieurs caractères, vous pouvez accéder à "Actions > Fichiers > Type de Saut de Ligne > Lire comme" et soit sélectionner "Saut de Ligne à chacun de ces Caractères (séparé par des virgules)" ou "Saut de Ligne à chacun de ces Points de Code (séparé par des virgules)". Ces deux options offrent la possibilité de définir plusieurs caractères comme un saut de ligne directement en tapant les caractères ou sous forme de points de code. Les caractères ou chaînes individuels doivent être séparés avec une virgule. Par exemple, "a,bc" pour un saut de ligne à chaque "a" et à chaque "bc" dans le texte. Si vous souhaitez utiliser la virgule comme un saut de ligne elle-même, vous pouvez la mettre en guillemets, par exemple "",",." pour un saut de ligne à chaque virgule et à chaque point du fichier. Points de code peuvent être spécifié dans les formats hexadecimal ("#0D#0A"), décimal ("13 10") ou de la manière U+X ("U+0D U+0A" ou "U+000D U+000A").
Si vous contrôlez TextConverter via la ligne de commande ou via un script, vous pouvez utiliser les paramètres customstrs-x et customcps-x pour les sauts de ligne à plusieurs caractères. Le x doit être remplacé par les sauts de ligne souhaitées, par exemple customstrs-a,bc et customcps-#0D#0A pour les deux exemples mentionnés ci-dessus. Dans le didacticiel sur le contrôle de script du TextEncoder dans la section "Sauts de Ligne à plusieurs Caractères", vous trouverez d'autres explications et exemples pour l'utilisation des paramètres customstrs-x et customcps-x. Tout dans ce tutoriel s'applique également au TextConverter.
Plus d'information et exemples sur ce sujet sont également disponibles dans le tutoriel de AskingBox "Réparer des Fichiers Texte avec des Sauts de Ligne Mixtes". Les exemples là-bas se rapportent à nouveau au TextEncoder, mais peuvent également être utilisés pour le TextConverter.