- Accueil
- Info légales
- Aide (FAQ)
- Les tags de ce site
- Bloc note
- Articles techniques
- Notes system
- Divers articles
- Drupal
- Notes ITIL 2007
- Notes MS
- Dans le quartier...
- Emploi
- Recettes de cuisine et adresses gourmandes
- mes applis ubuntu préferées
- Divers acronymes du monde social
- Internet 2018
- P2 meublé à louer - quartier du Poteau 75018
- apcos - réseaux sociaux et outils
- Articles techniques
- Divers liens
- Fun
- Mon CV IT
- Nouveautés
Pratiques et vocabulaire SEO
Le vocabulaire de base
URL est un sous-type d'URI (Uniform Resource Identifier). Le principe de lecture est bizarre et compliqué, car on lit une URL (et URI) à la fois "de droite à gauche", et à la fois "de gauche à droite"
Par ex, dans "https://editions-ixe.fr/content/suffragette-sally" on a :
- le protocole : "https" remplace le vieux "http" ; HTTPS permet au visiteur de vérifier l'identité du site web auquel il accède, grâce à un certificat d'authentification émis par une autorité tierce, réputée fiable - pour le surfeur, c'est son navigateur qui l'averti (pop-up, icone "i"... cf comment-afficher-les-details-d-un-certificat-ssl/).
- le nom de domaine (non géré par le CMS = drupal, wordpress ou autre, lié à DNS et hébergeur) : editions-ixe.fr
-
le chemin géré par le CMS : content
Le chemin joue un role sémantique pour un utilisateur.
Ex de chemins pour iXe : category/tags/ dans "https://editions-ixe.fr/category/tags/dedicace" ou "https://editions-ixe.fr/category/collection/x-x-y-z" ou "https://editions-ixe.fr/event/1803/conference-deliane-viennot".
A ne pas confondre avec le parcours de navigation d'un surfeur (menus, liens, blocs...). -
la page vue par un surfeur : suffragette-sally, qui, en réalité, va vers un truc du genre node/ID, quel que soit le CMS.
- Des parties logicielles du CMS gèrent le titre de la page (vue par le surfeur, avec espaces, caractères spéciaux... : Suffragette Sally), d'autres les chemins.
-
Une page HTML est une page de texte, qui résulte du travail d'un serveur web (OVH), que l'utilisateur visionne via son navigateur - c'est bètement du texte avec des balises.
Ca commence souvent par un "<!DOCTYPE html>" suivi par <html ...> et fini par </html> ; et entre <html ...> et </html> on a : <head> ... </head> et <body> </body>. Les liens utilisent les balises <a>...</a>, les images <img> et </img>...
Une bonne partie des données contenues dans la page (téléchargée par un surfeur sur son navigateur) est cachée à l'oeil du surfeur : de la balise <head> à </head> par exemple.
Ex : regarder le code source d'un livre, parties "<meta name="geo.placename", "<meta property="book:tag"" ou encore "<meta property="og:image:type" ".
Définitions basiques (quand on gère un site web marchand) :
- URL = Uniform Resource Locator ou Adresse web (ex : https://editions-ixe.fr/ https://www.ovh.com https://www.ovh.com/ https://www.google.fr/ ...).
-
URI (Uniform Resource Identifier) : les URI sont la technologie de base du World Wide Web car tous les hyperliens du Web sont exprimés sous forme d'URI
(cf https://fr.wikipedia.org/wiki/Uniform_Resource_Identifier leur métaphore est "ISBN" ou "code barre" ). Un ex d'URI :urn:ietf:rfc:2396
- Redirection URL : technique permettant à une page web d'être disponible sous plusieurs URL ; https://en.wikipedia.org/wiki/URL_redirection
DNS = service informatique distribué utilisé pour traduire les noms de domaine Internet en adresse IP ou autres enregistrements (toute machine, qu'elle soit serveur ou client, utilise DNS et "tout le temps" - voir la super vidéo à https://www.youtube.com/watch?v=0-RU07DOqvY qui présente dns, http, cookie....).
-
Hébergement de nom de domaine : consiste à fournir les services des serveurs DNS requis pour assurer la publication d’un nom de domaine sur Internet. Il existe une confusion avec les deux notions suivantes : Hébergeur web (OVH pour iXe, Gandi + autres pour moi) et registrar (Gandi).
Source : https://fr.wikipedia.org/wiki/Domain_Name_System - service informatique distribué donc dès qu'on y touche, tout est perturbé pour 2 jours en moyenne (et on ne peux rien y faire, ce sont les serveurs DNS du monde entier qui causent entre eux).
- Historiquement, Gandi est un registrar, et n'a proposé d'autres services (hébergement web, emails...) que... bien plus tard.
Référencement natuel
SEO = Search Engine Optimization ou référencement. Cf fr.wikipedia en.wikipedia.org/wiki/SEO et metatag, ensemble des techniques permettant d'améliorer la visibilité d'un site web :
- soumission (submission) = faire connaître le site auprès des outils de recherche (ex : module xmlsitemap pour drupal) ;
- positionnement (ranking) = positionner les pages d'un site en bonne position dans les pages de résultat pour certains mots-clés ;
SMO https://fr.wikipedia.org/wiki/Social_media_optimization
Outils : https://tagdef.com/fr/ https://www.seo.com/blog/smo-tips/
SERP =Search Engine Result Pages = résultats de recherche tels qu'affichés après une requête. Les résultats pour un même moteur de recherche peuvent varier selon paramétrages navigateur, lieu, type d'agent (mobile, tablette...), les requetes précédentes faites,... Donc, ce n'est pas parce que vous vous voyez en première position que vous l'êtes forcément (il vaut mieux etre sur la 1ere page).
Google n'est PAS le seul moteur de recherche : liste
Bien choisir ses mots clefs (courts, penser aux fautes d'orthographes).
Outils: http://www.webconfs.com/15-minute-seo.php
http://www.google.com/trends/?hl=fr et http://fr.semrush.com/ (analyser les mots clés utilisés par un site en référencement naturel (SEO) et en référencement payant (SEM/Google Adwords).
Voir aussi RDF (dans le core de drupal, en plugin pour wordpress) et la notion de Web sémantique
https://www.searchenginejournal.com/seo-101/seo-glossary-terms-definitio...
Référencement payant
Via association mots-clés/annonces (CTR). Cf SEA, SMA, VSEA...
Achat de mots clefs (liens sponsorisés) : On parle alors de SEM (Search Engine Marketing) par opposition au SEO.
Divers
SEO White hat : respecte les consignes des moteurs de recherche aux webmasters ; SEO Black hat : non, cherche à gagner au max (cloaking, Content spinning).
cloaking = générer un contenu HTML différent selon qu'il s'agit d'un visiteur ou d'un moteur de recherche (en regardant agent via HTML). Content spinning: générer aléatoirement différents textes en utilisant des paraphrases.
gestion stratégique de l'information (GSI) = IM https://en.wikipedia.org/wiki/Information_management
https://en.wikipedia.org/wiki/Information_technology
Optimiser le référencement
La base: contenu original, titre et URL adaptée, body lisible par les moteurs, balises META, liens, définir ALT pour les images.
Mettre à jour les pages du site permet d'augmenter l'indice accordé par le moteur au site ou en tout cas la fréquence de passage du robot d'indexation.
Titre: décrit le contenu, 6 ou 7 mots et unique. Contenu page web: 60 caractères. Le titre apparait dans les favoris, barre de titre, historique...
Certains moteurs de recherche accordent une importance capitale aux mots-clés présents dans l'URL, notamment les mots-clés présents dans le nom de domaine.
Penser à URL-Rewriting avec les mots-clés du titre de la page.
Par ex flash n'est pas vu par les moteurs de recherches, c'est du contenu opaque. Avoir contenu transparant. (frames déconseillé).
META description: y ajouter toutes fautes d'orthographe, pluriels... en général affichée dans les SERP => en HTML (caractères accentués), 20 mots clefs maxi.
META robots : page à indexer ou non, suivre les liens ou pas... index, follow : par défaut.
- noindex, follow : le robot ne doit pas indexer la page (toutefois le robot peut revenir régulièrement pour voir s'il existe de nouveaux liens)
- index, nofollow : le robot ne doit pas suivre les liens de la page (par contre le robot peut indexer la page)
- noindex, nofollow : le robot ne doit plus indexer la page, ni suivre les liens. Ceci se traduira par une baisse drastique de la fréquence de visite de la page par les robots.
Peuvent être cumulées avec les valeurs précédentes : noarchive (le robot ne doit pas proposer aux utilisateurs la version en cache), noodp (robot ne doit pas proposer la description de DMOZ (Open Directory Project) par défaut).
Cibler spécifiquement le robots d'exploration de Google (Googlebot) <meta name="googlebot" content="noindex,nofollow"/>
Si plusieures pages ne doivent pas etre indexées, plutot utiliser robots.txt ou <meta name="robots" content="noindex,follow"/>
Sur comment configurer robots.txt pour Google.
Pour que les robots indexent le contenu, il faut des liens internes => page qui présente l'architechture du site (avec pointeurs vers chaque page). La navigation doit etre pensée pour donner accès aux pages ayant un fort interret SEO.
NetLinking: des sites externes qui ont des liens vers notre site.
Liens "no follow": par ex pour contenu d'un forum, pour les users anonymes ou simples (non dans équipe éditoriale).
ALT lu par les robots et non voyants ; title : infobulle.
le crawl
Le référencement commence par le crawl (en français exploration) de votre site par les robots d'exploration des moteurs de recherche. Il s'agit d'agents parcourant les sites à la recherche de nouvelles pages à indexer ou bien de pages à mettre à jour.
Il vaut mieux que les pages s'affichent rapidement (cache). Avoir un sitemap.
De plus en plus de moteurs de recherche prennent en compte les signaux de partage sociaux dans leur algorithme. Google Panda prend notamment en compte ce critère pour déterminer si un site est de qualité ou non. Utiliser META OpenGraph og:image
L'idéal est d'avoir un site mobile conçu en responsive design car, dans ce cas, la page indexée pour les ordinateurs de bureau et terminaux mobile est la même, seul son affichage change selon le périphérique d'affichage. Ou rediriger vers un site pour mobile.
balise canonical
Lorsque les moteurs de recherche détectent du contenu dupliqué, ils n'en conservent qu'une seule page, selon leurs propres algorithmes, ce qui peut parfois conduire à des erreurs. Ainsi, il est conseillé de faire figurer dans les pages possédant du contenu dupliqué une balise Canonical pointant vers la page à conserver:<link rel="canonical" href="http://votresite/pagefinale"/>
D'une manière générale, il est conseillé de faire figurer dans vos pages une balise canonical avec l'URL de la page en cours. Cela permet notamment de limiter la déperdition liée aux paramètres inutiles dans l'URL tel que http://www.commentcamarche.net/forum/?page=1
Pénalités
de 2 types: pénalités manuelles (liens achetés, contenu artificiel, redirections trompeuses...), à corriger et demander la réexamin (peut-etre long).
pénalités algorithmiques : à corriger.
Algo google
Depuis le début: plus une page a de liens entrants, plus son PageRank (PR) augmente. Google annonce procéder à environ 500 optimisations de l'algorithme par an, soit plus d'une modification par jour.
Panda : nom de l'algo Google.
Outils: http://ubersuggest.org/ https://moz.com/researchtools/ose/
Plus sur le web
http://ogp.me/ Open Graph protocol est pour les médias sociaux
https://css-tricks.com/essential-meta-tags-social-media/
Super vidéo en FR :
- https://www.youtube.com/watch?v=0-RU07DOqvY qui présente dns, http, cookie....
-
https://www.youtube.com/watch?v=U6Uqf5xsaSI explique protocole, qu'est-ce que internet (services).
Super explication de PageRank à https://www.youtube.com/watch?v=GLsodToSO4I -
et aussi :
- 8 conseils pour augmenter le trafic de votre site web https://www.youtube.com/watch?v=6YvaDZ5NZyw
- 7 astuces SEO pour débutant https://www.youtube.com/watch?v=W0sf-oyF4IQ
https://en.wikipedia.org/wiki/Uniform_Resource_Identifier
https://www.hubspot.com/marketing-statistics
https://en.wikipedia.org/wiki/List_of_the_largest_information_technology...
Recherche sur le web
https://en.wikipedia.org/wiki/List_of_web_directories
DMOZ (Open Directory Project) Pour rappel, DMOZ a fermé en mars 2017, appartien maintenant à Verizon (-> http://curlie.org). DMOZ vient d'un ancien domaine directory.mozilla.org (voir https://en.wikipedia.org/wiki/DMOZ et https://fr.wikipedia.org/wiki/DMOZ)
https://curlie.org/World/Fran%c3%a7ais/
En lecture seule : dmoztools.net
https://en.wikipedia.org/wiki/Web_search_engine et https://en.wikipedia.org/wiki/Website_promotion