Pratiques et vocabulaire SEO

Le vocabulaire de base

URL est un sous-type d'URI (Uniform Resource Identifier). Le principe de lecture est bizarre et compliqué, car on lit une URL (et URI) à la fois "de droite à gauche", et à la fois "de gauche à droite" devil

Par ex, dans "https://editions-ixe.fr/content/suffragette-sally"  on a :

  • le protocole : "https" remplace le vieux "http" ; HTTPS permet au visiteur de vérifier l'identité du site web auquel il accède, grâce à un certificat d'authentification émis par une autorité tierce, réputée fiable - pour le surfeur, c'est son navigateur qui l'averti (pop-up, icone "i"... cf comment-afficher-les-details-d-un-certificat-ssl/).
  • le nom de domaine (non géré par le CMS = drupal, wordpress ou autre, lié à DNS et hébergeur) : editions-ixe.fr
  • le chemin géré par le CMS : content
    Le chemin joue un role sémantique pour un utilisateur.
    Ex de chemins pour iXe : category/tags/ dans "https://editions-ixe.fr/category/tags/dedicace" ou "https://editions-ixe.fr/category/collection/x-x-y-z" ou "https://editions-ixe.fr/event/1803/conference-deliane-viennot".
    enlightenedA ne pas confondre avec le parcours de navigation d'un surfeur (menus, liens, blocs...).
  • la page vue par un surfeur : suffragette-sally, qui, en réalité, va vers un truc du genre node/ID, quel que soit le CMS.
    • Des parties logicielles du CMS gèrent le titre de la page (vue par le surfeur, avec espaces, caractères spéciaux... : Suffragette Sally), d'autres les chemins.
    • Une page HTML est une page de texte, qui résulte du travail d'un serveur web (OVH), que l'utilisateur visionne via son navigateur - c'est bètement du texte avec des balises.
      Ca commence souvent par un "<!DOCTYPE html>" suivi par <html ...>  et fini par </html> ; et entre <html ...> et </html> on a : <head> ... </head> et <body> </body>. Les liens utilisent les balises <a>...</a>, les images <img> et </img>...
      Une bonne partie des données contenues dans la page (téléchargée par un surfeur sur son navigateur) est cachée à l'oeil du surfeur : de la balise <head> à </head> par exemple.
      Ex : regarder le code source d'un livre, parties "<meta name="geo.placename", "<meta property="book:tag"" ou encore "<meta property="og:image:type" ".

Définitions basiques (quand on gère un site web marchand) :

DNS = service informatique distribué utilisé pour traduire les noms de domaine Internet en adresse IP ou autres enregistrements (toute machine, qu'elle soit serveur ou client, utilise DNS et "tout le temps" - voir la super vidéo à https://www.youtube.com/watch?v=0-RU07DOqvY qui présente dns, http, cookie....).

  • Hébergement de nom de domaine :  consiste à fournir les services des serveurs DNS requis pour assurer la publication d’un nom de domaine sur Internet. Il existe une confusion avec les deux notions suivantes : Hébergeur web (OVH pour iXe, Gandi + autres pour moi) et registrar (Gandi).
    Source : https://fr.wikipedia.org/wiki/Domain_Name_System
  • service informatique distribué donc dès qu'on y touche, tout est perturbé pour 2 jours en moyenne (et on ne peux rien y faire, ce sont les serveurs DNS du monde entier qui causent entre eux).
  • Historiquement, Gandi est un registrar, et n'a proposé d'autres services (hébergement web, emails...) que... bien plus tard.

 

Référencement natuel

SEO = Search Engine Optimization ou référencement. Cf fr.wikipedia en.wikipedia.org/wiki/SEO et metatag, ensemble des techniques permettant d'améliorer la visibilité d'un site web :

  • soumission (submission) = faire connaître le site auprès des outils de recherche (ex : module xmlsitemap pour drupal) ;
  • positionnement (ranking) = positionner les pages d'un site en bonne position dans les pages de résultat pour certains mots-clés ;

SMO https://fr.wikipedia.org/wiki/Social_media_optimization
Outils : https://tagdef.com/fr/ https://www.seo.com/blog/smo-tips/

SERP =Search Engine Result Pages = résultats de recherche tels qu'affichés après une requête. Les résultats pour un même moteur de recherche peuvent varier selon paramétrages navigateur, lieu, type d'agent (mobile, tablette...), les requetes précédentes faites,... Donc, ce n'est pas parce que vous vous voyez en première position que vous l'êtes forcément (il vaut mieux etre sur la 1ere page).
Google n'est PAS le seul moteur de recherche : liste

Bien choisir ses mots clefs (courts, penser aux fautes d'orthographes).
Outils: http://www.webconfs.com/15-minute-seo.php
http://www.google.com/trends/?hl=fr et http://fr.semrush.com/ (analyser les mots clés utilisés par un site en référencement naturel (SEO) et en référencement payant (SEM/Google Adwords).

Voir aussi RDF (dans le core de drupal, en plugin pour wordpress) et la notion de Web sémantique
https://www.searchenginejournal.com/seo-101/seo-glossary-terms-definitio...

Référencement payant

Via association mots-clés/annonces (CTR). Cf SEA, SMA, VSEA...

Achat de mots clefs (liens sponsorisés) : On parle alors de SEM (Search Engine Marketing) par opposition au SEO.

 

Divers

SEO White hat : respecte les consignes des moteurs de recherche aux webmasters ; SEO Black hat : non, cherche à gagner au max (cloaking, Content spinning).
cloaking = générer un contenu HTML différent selon qu'il s'agit d'un visiteur ou d'un moteur de recherche (en regardant agent via HTML). Content spinning: générer aléatoirement différents textes en utilisant des paraphrases.

gestion stratégique de l'information (GSI) = IM https://en.wikipedia.org/wiki/Information_management
https://en.wikipedia.org/wiki/Information_technology

 

 


Optimiser le référencement

La base: contenu original, titre et URL adaptée, body lisible par les moteurs, balises META, liens, définir ALT pour les images.

Mettre à jour les pages du site permet d'augmenter l'indice accordé par le moteur au site ou en tout cas la fréquence de passage du robot d'indexation.

Titre: décrit le contenu, 6 ou 7 mots et unique. Contenu page web: 60 caractères. Le titre apparait dans les favoris, barre de titre, historique...

Certains moteurs de recherche accordent une importance capitale aux mots-clés présents dans l'URL, notamment les mots-clés présents dans le nom de domaine.
Penser à URL-Rewriting avec les mots-clés du titre de la page.

Par ex flash n'est pas vu par les moteurs de recherches, c'est du contenu opaque. Avoir contenu transparant. (frames déconseillé).

META description: y ajouter toutes fautes d'orthographe, pluriels... en général affichée dans les SERP => en HTML (caractères accentués), 20 mots clefs maxi.
META robots : page à indexer ou non, suivre les liens ou pas... index, follow : par défaut.

  • noindex, follow : le robot ne doit pas indexer la page (toutefois le robot peut revenir régulièrement pour voir s'il existe de nouveaux liens)
  • index, nofollow : le robot ne doit pas suivre les liens de la page (par contre le robot peut indexer la page)
  • noindex, nofollow : le robot ne doit plus indexer la page, ni suivre les liens. Ceci se traduira par une baisse drastique de la fréquence de visite de la page par les robots.

Peuvent être cumulées avec les valeurs précédentes : noarchive (le robot ne doit pas proposer aux utilisateurs la version en cache), noodp (robot ne doit pas proposer la description de DMOZ (Open Directory Project) par défaut).
Cibler spécifiquement le robots d'exploration de Google (Googlebot) <meta name="googlebot" content="noindex,nofollow"/>

Si plusieures pages ne doivent pas etre indexées, plutot utiliser robots.txt ou <meta name="robots" content="noindex,follow"/>
Sur comment configurer robots.txt pour Google.

Pour que les robots indexent le contenu, il faut des liens internes => page qui présente l'architechture du site (avec pointeurs vers chaque page). La navigation doit etre pensée pour donner accès aux pages ayant un fort interret SEO.
NetLinking: des sites externes qui ont des liens vers notre site.
Liens "no follow": par ex pour contenu d'un forum, pour les users anonymes ou simples (non dans équipe éditoriale).

ALT lu par les robots et non voyants ; title : infobulle.

le crawl

Le référencement commence par le crawl (en français exploration) de votre site par les robots d'exploration des moteurs de recherche. Il s'agit d'agents parcourant les sites à la recherche de nouvelles pages à indexer ou bien de pages à mettre à jour.

Il vaut mieux que les pages s'affichent rapidement (cache). Avoir un sitemap.

De plus en plus de moteurs de recherche prennent en compte les signaux de partage sociaux dans leur algorithme. Google Panda prend notamment en compte ce critère pour déterminer si un site est de qualité ou non. Utiliser META OpenGraph og:image

L'idéal est d'avoir un site mobile conçu en responsive design car, dans ce cas, la page indexée pour les ordinateurs de bureau et terminaux mobile est la même, seul son affichage change selon le périphérique d'affichage. Ou rediriger vers un site pour mobile.

balise canonical

Lorsque les moteurs de recherche détectent du contenu dupliqué, ils n'en conservent qu'une seule page, selon leurs propres algorithmes, ce qui peut parfois conduire à des erreurs. Ainsi, il est conseillé de faire figurer dans les pages possédant du contenu dupliqué une balise Canonical pointant vers la page à conserver:
<link rel="canonical" href="http://votresite/pagefinale"/>

D'une manière générale, il est conseillé de faire figurer dans vos pages une balise canonical avec l'URL de la page en cours. Cela permet notamment de limiter la déperdition liée aux paramètres inutiles dans l'URL tel que http://www.commentcamarche.net/forum/?page=1

Pénalités

de 2 types: pénalités manuelles (liens achetés, contenu artificiel, redirections trompeuses...), à corriger et demander la réexamin (peut-etre long).
pénalités algorithmiques : à corriger.

Algo google

Depuis le début: plus une page a de liens entrants, plus son PageRank (PR) augmente. Google annonce procéder à environ 500 optimisations de l'algorithme par an, soit plus d'une modification par jour.

Panda : nom de l'algo Google.

Outils: http://ubersuggest.org/ https://moz.com/researchtools/ose/

 

Plus sur le web

http://ogp.me/ Open Graph protocol est pour les médias sociaux
https://css-tricks.com/essential-meta-tags-social-media/

Super vidéo en FR : 

https://en.wikipedia.org/wiki/Uniform_Resource_Identifier

https://www.hubspot.com/marketing-statistics

https://en.wikipedia.org/wiki/List_of_the_largest_information_technology...

Recherche sur le web

https://en.wikipedia.org/wiki/List_of_web_directories

DMOZ (Open Directory Project) Pour rappel, DMOZ a fermé en mars 2017, appartien maintenant à Verizon (-> http://curlie.org). DMOZ vient d'un ancien domaine directory.mozilla.org (voir https://en.wikipedia.org/wiki/DMOZ et https://fr.wikipedia.org/wiki/DMOZ)
https://curlie.org/World/Fran%c3%a7ais/
En lecture seule : dmoztools.net

https://en.wikipedia.org/wiki/Web_search_engine et https://en.wikipedia.org/wiki/Website_promotion

 

https://my.framasoft.org/u/jenny/?searchtags=SEO

logo drush