Universally unique identifier

Universally unique identifier (UUID), de l'anglais signifiant littéralement « identifiant unique universel », est en informatique un système permettant à des systèmes distribués d'identifier de façon unique une information sans coordination centrale importante. Dans ce contexte, le mot « unique » doit être pris au sens de « unicité très probable » plutôt que « garantie d'unicité ». Il s'agit d'une spécification DCE définie initialement par l'OSF (Open Software Foundation).

Cette spécification a été enrichie par la RFC 4122^[1], en 2005, qui standardise des algorithmes de génération n'utilisant pas d'adresse matérielle. L'UUID est normalisé par l'ISO/IEC 9834-8:2008 qui prend en compte les algorithmes OSF, RFC 4122^[1], mais aussi certains nommages « propriétaires ».

Ces identifiants uniques sont codés sur 128 bits et sont produits en utilisant des composantes pseudo-aléatoires ainsi que les caractéristiques d'un ordinateur (numéro de disque dur, adresse MAC, etc.).

Un UUID est initialement conçu de manière à être unique dans le monde ; cependant, les algorithmes de hachage et les générateurs pseudo-aléatoires introduisent un risque non nul que deux ordinateurs produisent un même identifiant. La norme ISO définit d'ailleurs des « identificateurs de 128 bits qui sont soit garantis mondialement uniques ou sont mondialement uniques avec une haute probabilité ». Quant à la RFC 4122^[1], si elle parle d'identificateur unique, elle précise que les identificateurs issus d'espaces de noms différents sont seulement « différents avec une haute probabilité » (§4.3).

Les UUID sont destinés à l'identification de composants logiciels (plugins), des différents membres dans un système distribué ou d'autres applications nécessitant une identification sans ambiguïté. Les UUID peuvent être générés sur les systèmes Unix via la commande uuidgen. Sous debian, le paquet e2fsprogs contient une commande /sbin/blkid qui permet d'afficher un UUID correspondant à certains périphériques (paquet util-linux sous RedHat/CentOS).

Format

Dans sa représentation textuelle canonique, les 16 octets d'un UUID sont représentés comme 32 nombres hexadécimaux en minuscules séparés par 4 tirets sous la forme suivante:

123e4567-e89b-12d3-a456-426614174000

........-....-M...-N...-............

Les 4 bits de M et les bits de 1 à 3 de N déterminent le format de l'UUID.

M représente la version utilisée par l'UUID alors que N représente la variante, dans l'exemple M vaut 1 et N vaut 10.., indiquant un UUID version-1 variant-1, c'est à dire un UUID basé sur la date DCE/RFC 4122.

La RFC 4122 Section 3 stipule que les caractères sont affichés en minuscules même si les majuscules sont permises lors d'une saisie.

Les GUIDs de Microsoft sont parfois représentés avec des accolades :

{123e4567-e89b-12d3-a456-426652340000}

RFC 4122 définie une Uniform Resource Name (URN) namespace pour les UUIDs. Un UUID représenté comme un URN s'affiche sous la forme suivante:

urn:uuid:123e4567-e89b-12d3-a456-426655440000

Algorithmes de génération

La première version du standard prévoyait de générer l'identifiant avec l'adresse MAC de l'ordinateur et le nombre de dixièmes de microseconde depuis la première date dans le calendrier grégorien. Cet algorithme est le plus robuste car l'adresse MAC apporte une garantie d'unicité (deux machines ne peuvent avoir la même adresse, et une machine ne peut générer deux UUID pendant le même dixième de microseconde).

Cependant, l'utilisation de l'adresse MAC a un effet pervers : donner des informations sur l'ordinateur qui a généré l'identifiant. Des améliorations ont été entreprises et standardisées par la RFC 4122^[1] (puis normalisées ISO). On peut maintenant faire appel à des nombres pseudo-aléatoires (version 4) et à des fonctions de hachage cryptographiques comme MD5 (version 3) ou SHA-1 (version 5) qui permettent de « casser » toute information relative à l'ordinateur qui a produit l'UUID. Le langage Java 5.0 utilise une variante de la génération de type Leach-Salz dont la spécification a expiré. Toutes ces techniques introduisent cependant une incertitude sur l'unicité de l'identifiant (une séquence pseudo-aléatoire peut sortir deux fois le même résultat, et les algorithmes de hachage ne sont pas bijectifs).

Enfin la multiplication de techniques concurrentes non standardisées a fragilisé la robustesse de l'UUID dans ses différentes utilisations (c'est ce qui a motivé la rédaction de la RFC en plus du standard OSF).

Mais au vu du nombre de combinaisons possibles (plus de 10³⁸ par version), l'unicité garde « une haute probabilité ».

Versions

Version 1

La version 1 crée un UUID en se basant sur l'adresse MAC et l'horodatage. Il garantit la génération d'un identifiant unique pour deux systèmes avec des adresses MAC différentes. Il permet également sur la même machine, de générer jusqu'à 10 millions d'UUID uniques par secondes.

Version 2

D'après la RFC 4122^[1] la version 2 est une variante DCE (« Distributed Computing Environment ») qui inclut des UIDs POSIX.

Version 3

La version 3 est un hash md5 d'un nom (comme une URL ou un OID). L'UUID généré sera toujours égal pour un même nom, il ne contient donc aucun aspect temporal ou aléatoire.

Version 4

La version 4 génère un UUID totalement aléatoire.

Version 5

La version 5 est un hash sha1 d'un nom (comme une URL ou un OID). Comme pour la version 3, l'UUID généré sera toujours égal pour un même nom.

Voir aussi

Partition de disque dur
Globally Unique Identifier (GUID)

Liens externes

ISO/IEC 9834-8:2008
uuidonline.com propose un générateur de UUID version 1,3,4,5
uuidtools.com propose un décodeur de UUID version 1,3,4,5

Références

↑ ^{a b c d et e} (en) Request for comments n^o 4122.

[RFC-4122-1] {a b c d et e} (en) Request for comments n^o 4122.

[1]