Excel trouver les doublons : méthodes simples pour débutants pressés

Un doublon dans Excel, c’est une valeur identique qui apparaît au moins deux fois dans une colonne ou une plage de cellules. Trouver les doublons dans Excel repose sur trois approches natives (mise en forme conditionnelle, formule NB.SI, outil Supprimer les doublons) et une extension pour les cas que ces méthodes ne couvrent pas.

Doublons partiels dans Excel : le problème que les méthodes standard ignorent

Les trois techniques intégrées à Excel comparent des chaînes de caractères strictement identiques. « Jean Dupont » et « Jean Dupond », ou « 12 rue du Marché » et « 12 r. du Marché », ne sont jamais détectés comme doublons par la mise en forme conditionnelle ni par NB.SI.

A voir aussi : Enregistrer un fichier Excel en mode protégé : astuces et manipulations faciles

Ce type de doublon partiel représente le cas le plus fréquent dans les fichiers clients, les listes de contacts ou les exports CRM. Une faute de frappe, un accent manquant ou une abréviation suffisent à faire passer deux lignes quasi identiques pour des entrées distinctes.

Homme consultant un fichier Excel avec des doublons surlignés sur un ordinateur portable posé sur une table en bois à domicile

A lire en complément : Créer un tableau statistique sur excel : étapes simples et astuces pour débutants

L’extension Fuzzy Lookup, développée par Microsoft Research, résout ce problème. Elle s’installe comme complément Excel et ajoute un onglet dédié dans le ruban. Son principe : comparer deux tableaux en attribuant un score de similarité à chaque paire de valeurs, même si l’orthographe diffère.

Pour l’utiliser, il faut disposer de deux colonnes (ou deux tableaux) à comparer. Fuzzy Lookup génère une table de résultats avec trois colonnes : la valeur source, la correspondance trouvée et un score de confiance entre 0 et 1. Plus le score se rapproche de 1, plus la correspondance est fiable.

  • Installer le complément Fuzzy Lookup depuis le site Microsoft (gratuit, compatible avec les versions desktop d’Excel)
  • Convertir les deux plages de données en tableaux structurés via l’onglet Insertion
  • Sélectionner les colonnes à comparer dans le panneau Fuzzy Lookup et ajuster le seuil de similarité selon la tolérance souhaitée
  • Analyser les résultats en filtrant par score pour traiter d’abord les quasi-doublons les plus probables

Cette approche ne remplace pas les méthodes natives pour les doublons exacts. Elle les complète sur un terrain qu’Excel seul ne couvre pas.

Mise en forme conditionnelle pour afficher les doublons Excel

La mise en forme conditionnelle est la méthode la plus rapide pour repérer visuellement des doublons dans une colonne. Elle colore automatiquement les cellules contenant des valeurs en double.

Sélectionnez la plage de cellules à analyser (une colonne entière ou une zone précise). Dans l’onglet Accueil, cliquez sur Mise en forme conditionnelle, puis Règles de mise en surbrillance des cellules, puis Valeurs en double. Excel propose de colorer les doublons ou les valeurs uniques.

Les cellules en double se colorent instantanément, ce qui permet un repérage visuel sans modifier les données. Cette méthode fonctionne sur une seule colonne à la fois. Pour comparer deux colonnes entre elles, il faut passer par une formule.

Limite à garder en tête : la mise en forme conditionnelle colore toutes les occurrences, y compris la première. Elle ne distingue pas l’original du doublon. Pour savoir quelle ligne conserver, un tri complémentaire ou une formule NB.SI devient nécessaire.

Formule NB.SI pour compter et isoler les doublons dans un tableau

La fonction NB.SI (COUNTIF en anglais) compte le nombre de fois qu’une valeur apparaît dans une plage donnée. En ajoutant cette formule dans une colonne auxiliaire, chaque ligne affiche un chiffre : 1 pour une valeur unique, 2 ou plus pour un doublon.

La syntaxe est directe : =NB.SI(plage;cellule). Par exemple, =NB.SI($A$2:$A$500;A2) compte combien de fois la valeur de A2 apparaît dans la colonne A. Le signe $ verrouille la plage pour que la formule reste cohérente en la copiant vers le bas.

Jeune femme debout dans un espace de coworking utilisant Excel avec mise en forme conditionnelle pour identifier des doublons sur double écran

Une fois la colonne auxiliaire remplie, filtrez les valeurs supérieures à 1 pour isoler uniquement les doublons. Cette technique a un avantage sur la mise en forme conditionnelle : elle quantifie. Savoir qu’une valeur apparaît trois fois, et non simplement « en double », aide à décider quelles lignes supprimer.

Pour comparer deux colonnes distinctes (par exemple, une liste de noms dans la colonne A et une autre dans la colonne B), la formule =NB.SI($B$2:$B$500;A2) identifie les valeurs de A présentes dans B. Un résultat supérieur à 0 signale une correspondance.

Supprimer les doublons Excel avec l’outil natif du ruban

Excel intègre un outil dédié à la suppression des doublons, accessible depuis l’onglet Données. Cet outil supprime les lignes en double et ne conserve que la première occurrence.

Cliquez dans le tableau, puis sur le bouton Supprimer les doublons dans le groupe Outils de données. Une fenêtre s’ouvre avec la liste des colonnes. Cochez celles qui doivent servir de critère de comparaison. Sélectionner plusieurs colonnes réduit les faux positifs : deux « Jean Martin » dans des villes différentes ne seront pas considérés comme doublons si la colonne Ville est cochée.

Après validation, Excel affiche un message indiquant le nombre de valeurs en double supprimées et le nombre de valeurs uniques restantes. Cette suppression est définitive (sauf annulation immédiate avec Ctrl+Z), donc dupliquer l’onglet avant l’opération évite les pertes accidentelles.

  • Toujours trier les données avant suppression pour vérifier visuellement quelles lignes seront concernées
  • Utiliser NB.SI en amont pour quantifier les doublons et anticiper l’impact de la suppression
  • Conserver une copie de l’onglet original, car l’outil ne propose pas de corbeille ni d’historique

Quelle méthode choisir selon la taille du fichier Excel

La mise en forme conditionnelle convient aux fichiers de quelques centaines de lignes où un contrôle visuel suffit. NB.SI prend le relais dès que le volume dépasse le millier de lignes, car le filtrage par valeur chiffrée est plus fiable qu’un repérage par couleur.

L’outil Supprimer les doublons du ruban est adapté quand la décision est déjà prise : les doublons exacts doivent disparaître. Il ne sert pas à analyser, seulement à nettoyer.

Fuzzy Lookup intervient quand les doublons ne sont pas exacts. C’est le cas typique des bases de données saisies manuellement par plusieurs personnes, ou des fichiers issus de fusions entre systèmes différents. Aucune formule native d’Excel ne gère la similarité approximative.

La CNIL, dans sa mise à jour de novembre 2024 sur la qualité des données, insiste sur la suppression systématique des doublons dans les bases contenant des données personnelles. Le nettoyage des doublons dans Excel n’est donc pas seulement une question de confort : pour les fichiers clients ou les listes de contacts, c’est une exigence liée au RGPD.