ASCII, UTF-8, ISO-8859 ... Vous avez peut-être vu ces singes étranges circuler, mais que faire? ils signifient réellement? Continuez votre lecture en expliquant ce qu'est l'encodage des caractères et comment ces acronymes se rapportent au texte brut que nous voyons à l'écran
Quand nous parlons de langage écrit, nous parlons de lettres comme éléments constitutifs des mots, qui ensuite construire des phrases, des paragraphes, et ainsi de suite. Les lettres sont des symboles qui représentent des sons. Quand vous parlez de langage, vous parlez de groupes de sons qui se rassemblent pour former une sorte de sens. Chaque système linguistique a un ensemble complexe de règles et de définitions qui régissent ces significations. Si vous avez un mot, c'est inutile à moins de savoir de quelle langue il s'agit et de l'utiliser avec d'autres qui parlent cette langue.
(Comparaison des scripts Grantha, Tulu et Malayalam, Image de Wikipédia)
Dans le monde des ordinateurs, nous utilisons le terme «caractère». Un caractère est une sorte de concept abstrait, défini par des paramètres spécifiques, mais c'est l'unité fondamentale du sens. Le latin 'A' n'est pas le même qu'un 'alpha' grec ou un 'alif' arabe parce qu'ils ont des contextes différents - ils sont de langues différentes et ont des prononciations légèrement différentes - donc nous pouvons dire qu'ils sont des caractères différents. La représentation visuelle d'un personnage s'appelle un "glyphe" et différents ensembles de glyphes sont appelés "polices". Les groupes de caractères appartiennent à un "ensemble" ou un "répertoire".
Lorsque vous tapez un paragraphe et que vous changez la police, vous ne changez pas les valeurs phonétiques des lettres, vous changez leur apparence. C'est juste cosmétique (mais pas sans importance!). Certaines langues, comme l'ancien égyptien et le chinois, ont des idéogrammes; ceux-ci représentent des idées entières au lieu de sons, et leurs prononciations peuvent varier dans le temps et la distance. Si vous substituez un caractère à un autre, vous substituez une idée. C'est plus qu'un simple changement de lettre, ça change un idéogramme.
(Image de Wikipedia)
Lorsque vous tapez quelque chose sur le clavier ou que vous chargez un fichier, comment l'ordinateur sait-il afficher? C'est à ça que sert l'encodage de caractères. Le texte sur votre ordinateur n'est pas réellement des lettres, c'est une série de valeurs alphanumériques appariées. L'encodage de caractères agit comme une clé pour laquelle les valeurs correspondent à quels caractères, tout comme l'orthographe dicte quels sons correspondent à quelles lettres. Le code Morse est une sorte de codage de caractères. Il explique comment les groupes d'unités longues et courtes telles que les bips représentent des caractères. En code Morse, les caractères sont uniquement des lettres, des chiffres et des points d'arrêt en anglais. De nombreux encodages de caractères informatiques se traduisent par des lettres, des chiffres, des accents, des signes de ponctuation, des symboles internationaux, etc.
Souvent, sur ce sujet, le terme «pages de codes» est également utilisé. Ce sont essentiellement des encodages de caractères utilisés par des sociétés spécifiques, souvent avec de légères modifications. Par exemple, la page de code Windows 1252 (anciennement connue sous le nom ANSI 1252) est une forme modifiée de l'ISO-8859-1. Ils sont principalement utilisés en tant que système interne pour désigner les codages de caractères standard et modifiés qui sont spécifiques aux mêmes systèmes. Au début, l'encodage des caractères n'était pas si important parce que les ordinateurs ne communiquaient pas entre eux. Avec l'importance croissante de l'Internet et la mise en réseau, il est devenu de plus en plus important de nos vies quotidiennes sans que nous nous en rendions compte.
(Image de sarah sosiak)
Il y a beaucoup de codages de caractères différents, et il y a beaucoup de raisons à cela. Le codage de caractères que vous choisissez d'utiliser dépend de vos besoins. Si vous communiquez en russe, il est logique d'utiliser un codage de caractères qui supporte bien le cyrillique. Si vous communiquez en coréen, alors vous voudrez quelque chose qui représente bien Hangul et Hanja. Si vous êtes un mathématicien, alors vous voulez quelque chose qui a bien représenté tous les symboles scientifiques et mathématiques, ainsi que les glyphes grecs et latins. Si vous êtes un farceur, vous pourriez peut-être bénéficier d'un texte à l'envers. Et, si vous voulez que tous ces types de documents soient affichés par une personne, vous voulez un encodage assez commun et facilement accessible.
Jetons un coup d'oeil à quelques-uns des plus communs.
(Extrait de la table ASCII, Image de asciitable.com)
(Extrait du script tibétain, Unicode v4, unicode.org)
Eh bien, l'ASCII fonctionne pour la plupart des anglophones, mais pas pour beaucoup d'autres choses. Plus souvent, vous verrez ISO-8859-1, qui fonctionne pour la plupart des langues d'Europe occidentale. Les autres versions d'ISO-8859 fonctionnent pour des scripts cyrilliques, arabes, grecs ou autres. Toutefois, si vous souhaitez afficher plusieurs scripts dans le même document ou sur la même page Web, UTF-8 permet une bien meilleure compatibilité. Il fonctionne également très bien pour les personnes qui utilisent des signes de ponctuation, des symboles mathématiques ou des caractères spontanés, tels que des carrés et des cases à cocher.
(Plusieurs langues dans un document, Capture d'écran de gujaratsamachar.com)
inconvénients à chaque ensemble, cependant. ASCII est limité dans ses signes de ponctuation, donc il ne fonctionne pas incroyablement bien pour les modifications typographiquement correctes. Avez-vous déjà copié / collé à partir de Word pour avoir une étrange combinaison de glyphes? C'est l'inconvénient de l'ISO-8859, ou plus exactement, son interopérabilité supposée avec des pages de code spécifiques au système d'exploitation (nous nous intéressons à vous, Microsoft!). L'inconvénient majeur de l'UTF-8 est le manque de support approprié dans les applications d'édition et de publication. Un autre problème est que les navigateurs n'interprètent souvent pas et affichent simplement la marque d'ordre des octets d'un caractère codé en UTF-8. Cela entraîne l'affichage de glyphes indésirables. Et bien sûr, déclarer un encodage et utiliser des caractères d'un autre sans les déclarer / référencer correctement sur une page Web rend difficile le rendu correct des navigateurs et l'indexation appropriée des moteurs de recherche.
Pour vos propres documents, manuscrits, et ainsi de suite, vous pouvez utiliser tout ce dont vous avez besoin pour faire le travail. En ce qui concerne le Web, cependant, il semble que la plupart des gens soient d'accord pour utiliser une version UTF-8 qui n'utilise pas de marque d'octet, mais ce n'est pas tout à fait unanime. Comme vous pouvez le voir, chaque encodage de caractères a son propre usage, son contexte, ses forces et ses faiblesses. En tant qu'utilisateur final, vous n'aurez probablement pas à faire face à cela, mais vous pouvez maintenant faire un pas en avant si vous le souhaitez.
Pouvoir compresser nos fichiers pour faciliter leur partage et / ou leur transport La vie électronique est beaucoup plus facile, mais parfois nous pouvons voir des résultats de calibrage bizarres ou inattendus après les avoir compressés. Pourquoi donc? La session de questions-réponses d'aujourd'hui nous est offerte par SuperUser, une subdivision de Stack Exchange, un regroupement communautaire de sites Web de questions-réponses.
Créer des liens Facebook sur Android dans le navigateur
Les utilisateurs de Facebook ont peut-être remarqué une modification récente de leur application mobile. Lorsque vous cliquez sur un lien, il s'ouvre maintenant dans Facebook, au lieu de votre navigateur préféré par défaut. C'est vraiment agaçant; voici comment le changer sur Android. Facebook affirme que les "liens s'ouvrent plus vite" mais ils ne le font pas.