La maîtrise de l’indexation SEO

L’indexation SEO fait partie du premier pilier du référencement naturel : la technique. Maîtriser son indexation et l’optimiser permet donc aux consultants et aux responsables marketing de faciliter la connaissance qu’a Google du site internet. Plus de 4 millions de sites sont créés chaque jour dans le monde, alors Google a beaucoup (beaucoup) de travail. Pour survivre dans un environnement de plus en plus exigeant et concurrentiel, il devient capital de parfaire l’indexation de ses pages.

Comprendre l’indexation SEO

Je publie une page, sera-t-elle obligatoirement dans l’index de Google ?

Définition et enjeux

Les robots d’exploration (ou crawlers) parcourent votre site pour en extraire les informations clés telles que les mots-clés, les métadonnées, la structure des liens internes et la hiérarchie des contenus. Ce processus n’est pas anodin : il conditionne la manière dont vos pages seront perçues et valorisées par les algorithmes de recherche.

Chaque site possède un budget crawl. Autrement dit, tous les sites internet ont un nombre maximal de pages crawlées chaque jour, qui correspond peu ou prou à cette formule :

crawl demand (nombre de pages indexables) + crawl rate limit (nombre maximum de pages crawlés par passage du bot) = budget crawl

Les enjeux de l’indexation sont multiples :

– Optimisation de la visibilité : toutes les pages ne sont pas utiles. Il faut donc les « trier » en amont pour augmenter ses chances d’apparaître dans les premiers résultats de recherches. Par ailleurs, toutes les pages crawlées ne sont pas obligatoirement mises dans l’index et positionnées ;

– Renforcement de l’autorité : la fraîcheur du contenu, l’analyse temporelle des liens (ATL) et la qualité du processus mis en place pour faciliter l’indexation sont autant de moyens pour renforcer l’autorité du site et donc le budget crawl ;

– Adaptabilité aux changements : tenir à jour son indexation vous assure que les modifications effectuées sur votre site sont bien prises en compte par Google.

Fonctionnement des moteurs de recherche

Les moteurs de recherche comme Google appliquent un processus en plusieurs étapes pour indexer et classer les contenus.

Tout d’abord, il y a le crawl des bots. Les robots d’exploration parcourent le web de liens en liens, de pages en pages à la recherche de nouvelles URLs et de contenus frais. La qualité du maillage interne et de l’arborescence générale du site est donc primordiale pour faciliter ce travail de collecte.

Par la suite, les moteurs de recherche analysent en profondeur les pages crawlées. Cette étape est capitale, car elle permet de déterminer le thème de la page, la pertinence des mots-clés, la qualité globale et l’intention de recherche. Ces informations sont stockées dans l’index.

Enfin, arrive le classement (aussi appelé « ranking »). Lorsqu’une requête est effectuée par un internaute, les moteurs de recherches recherchent l’information dans leurs bases de données – l’index – et déterminent l’ordre d’apparition des pages. Une bonne indexation garantit ainsi que vos pages disposent de tous les atouts nécessaires pour être correctement évaluées par les différents algorithmes.

Les facteurs clés de l’indexation

Pour vérifier si vos pages ont été indexées, vous pouvez vous rendre dans la Search Console à Indexation, puis à Pages. Vous avez également la possibilité de contrôler l’indexation avec la requête « site: + URL »

L’utilisation des fichiers robots.txt et des sitemaps

Le fichier robots.txt se place à la racine du site, et donne des instructions sur ce qui doit être crawlé. Attention, les bots peuvent tout de même accéder aux contenus présents sur les pages et sont libres de les indexer. C’est le cas lorsqu’une page est bloquée mais populaire (backlinks qui pointent vers elle). On le retrouve à l’adresse suivante : URL + /robots.txt.

Ces consignes permettent de délimiter le champ d’exploration des bots (aussi appelés user-agents). En interdisant l’accès à certaines pages du site (sensibles ou peu pertinentes), vous protégez votre budget crawl pour des sections à forte valeur ajoutée. Vous avez la possibilité de connaître les directives et leurs implications via la Search Console.

Le sitemap, quant à lui, est un fichier XML (définit selon le standard XML de sitempas.org) qui liste les URLs importantes du site. Le bot est donc guidé vers les pages pertinentes, ce qui facilite l’exploration des sites volumineux ou structurellement complexes.

On retrouve ainsi les données suivantes :

– URL set ;

– URL ;

– Date de dernière modification ;

– La fréquence de publication ;

– La priorité de la page (de 0.0 à 1.0).

Ne dépassez pas les 50 000 URLs par sitempa. Au besoin, vous pouvez créer plusieurs sitemaps pour vos images et vos sous-domaines.

La balise méta robots

La balise méta robots est spécifiquement destinée à l’exploration et l’indexation. Située dans la balise <head>, elle transmet aux robots d’exploration des instructions précises quant à l’indexation du contenu et à l’exploration de liens en liens. C’est l’un des moyens les plus efficaces pour donner des ordres aux bots, que ce soit pour indexer, explorer ou désindexer une page web.

Cet outil HTML se présente de la manière suivante :

<meta name=“robots” content=“index, follow”>

On retrouve ainsi à qui sont destinées les instructions et lesdites instructions. Dans notre exemple, le « meta name » s’adresse à tous les robots, et le contenu « index, follow » signifie que les robots peuvent indexer la page et suivre les liens intégrés à la page. On peut également bloquer l’indexation (noindex) et/ou l’exploration des liens (nofollow).

Il est capital de conserver une cohérence dans la mise en place de ces balises, pour éviter toute confusion chez les robots. Certains robots acceptent d’autres directives, telles que noarchive, nosnippet, max-snippet, max-image-preview, unavailable_after.

Le référencement SEO est directement impacté par les instructions fournies aux bots. En maniant correctement ces balises, vous pouvez optimiser l’indexation, gérer la diffusion du PageRank et améliorer l’UX.

Les entêtes http : X-Robots tag

Les entêtes sont des éléments de communication envoyés par le serveur avant le contenu proprement dit. Ils transmettent les informations essentielles sur la nature et le comportement des ressources, telles que les directives de cache et de sécurité ou le type de contenu.

Le X-Robots tag permet de contrôler l’indexation, le suivi des liens et la mise en cache des ressources depuis le serveur. Il reprend les mêmes spécificités que la balise méta robots : noindex, nofollow, index, follow.

L’avantage du X-Robots tag réside dans le fait que les directives peuvent s’appliquer à tous les types de fichiers, notamment multimédia, et ce sans modification du code source. Par ailleurs, les instructions fournies par cette balise sont interprétées en premier par les bots, et prévalent (en règle générale) sur les directives HTML. Pensez tout de même à garder une cohérence entre les instructions.

La balise rel=“canonical”

Cette balise permet d’indiquer aux bots l’URL à indexer parmi plusieurs pages présentant un contenu identique ou similaire. C’est un moyen efficace, mais non absolu, de contrôler le duplicate content, et d’éviter la dilution du jus de lien. En effet, le bot peut décider à votre place quelle est la page considérée comme principale ou secondaire.

À noter : n’oubliez pas la balise « canonical » lors de vos A/B test !

Le maillage interne

C’est l’une des clefs de réussite du SEO. Ce maillage, qui facilite la navigation des internautes, est également important pour les user-agents. Si votre maillage interne est inexistant ou faible, le crawler risque de passer à côté de plusieurs pages, et donc de limiter la transmission du jus des liens.

Pour éviter toute difficulté, organisez votre site avec :

– Une architecture claire : accueil à catégorie à sous-catégorie à articles ;

– Des ancres spécifiques, descriptives, pertinentes et logiques.

Réalisez un audit régulier de vos pages pour corriger les liens brisés ou peu pertinents. Ce qui est ergonomique pour l’internaute est ergonomique pour le spider.

L’analyse des logs

L’analyse des logs consiste à étudier les fichiers journaux du serveur qui enregistrent toutes les requêtes effectuées, notamment par les robots d’exploration.

Ces données sont essentielles, car elles permettent de comprendre comment est exploré votre site web. Les erreurs d’exploration sont également indiquées, ce qui permet de les corriger rapidement tout en maîtrisant le budget crawl.

L’ensemble de ces éléments peuvent bloquer l’exploration ou l’indexation des pages de votre site internet. Si les pages ne sont pas explorées, elles ne pourront pas être accessibles via une recherche Google. Vous êtes invisible aux yeux des internautes. Il est donc capital de vous assurer que votre site est indexable. Pour cela, vous devez faire appel à un spécialiste du SEO technique, qui est le seul capable de vous proposer des actions correctrices efficaces.