xmlsitemap 7.x-2.0 et drupal 7

Forums:

Officiel https://www.drupal.org/project/xmlsitemap + Doc https://www.drupal.org/documentation/modules/xmlsitemap
Vers mes notes xmlsitemap  6.x-2.0-rc1 (pour drupal 6).

Après analyse (update mai 2014)

Sur la version anglaise du sitemap (en/sitemap.xml), il y a des lignes en "node/12" qui ne devraient pas y être... Après analyse, c'est du à la présence du bloc (en haut à droite) avec les drapeaux ; xmlsitemap ajoute alors (au fichier anglais) une page inexistente (non traduite). Il faut donc que ce bloc de drapeaux/langue n'apparaisse que pour les users logués par ex (ou le retirer), ou uniquement sur certaines pages (ex: contact, mentions légales...) traduites.
Note (conf négotion de langue sur ce site: ajout de "/en" sur les pages anglaises - les pages fr s'affichent sans fr dans l'url).

Les lignes en doubles avec des P différentes -> si un type de node est référencé par xmlsitemap + il apparait dans un menu, lui aussi référencé, alors le lien apparaitra en double dans le sitemap.xml !


Rappel: La ref est http://www.sitemaps.org/fr/
pour administrer ce module -> admin/config/search/xmlsitemap/settings
 

Je regarde le fichier sitemap.xml - avec les feuilles de styles css c'est pratique, surtout en triant selon la dernière colonne: Priorité.

Pour Drupal 7, module de référencement web xmlsitemap (7.x-2.0)

Je viens de tout reconstruire, et pourtant j'y trouve des erreurs Oups, et le tri selon la colonne "Change frequency" me laisse assez songeuse indecision

Je cron, vide les caches, re-cron, puis (via un petit admin/config/search/settings) je constate que j'ai pas mal de contenus à indexer. Donc j'augmente la prio d'indéxation, vérifie que tout est indéxé (module de recherche drupal, retour aux paramètres initiaux du module core de recherche) -> idem !
Pas d'erreur non plus dans les webmaster tools google angel mais je n'envoie mes 2 fichiers xml que une fois par semaine à Google. En passant, je constate que les modifs de structures ont été appréciées par Google (j'avais fait des modifs il y a quelques mois, mais ne m'étais pas loguée dans google depuis).

Je re-check admin/config/search/xmlsitemap/settings, sans parler de la conf des divers types de contenus, menus... Je vais utiliser la page "bonjour (mention légale)" en test. Cron et recron frown

Les priorités (colonne Priority)

La p1 correspond à la page d'accueil, ok. En bas, les 0.2. Pourquoi les 2 colonnes centrales ne se mettent pas à jour, restant désespérement vides?
Le seul endroit "Change frequency" où on peux choisir "daily/monthly..." est pour la page d'accueil ; pour les types de contenu et termes, nulle  trace de la liste "Change frequency"!

Trop de lignes en P 0.5 ?

lié à un autre module?

Comme j'avais viré le mode overlay (que je n'aimais pas), j'en ai profité pour réactiver "Advanced help" qui remarche (et coché dans les paramètres de la recherche la dite cas à cocher + cron toujours).

Tenter une reconstruction des alias d'URL (admin/config/search/path/update_bulk)?

ben oui, comme ce fichier xml contient des URL... mais si on touche à tout, cela devient difficile d'étudier le dit-module. On tentera plus tard.

tests de la conf de xmlsitemap

J'update les 2 fichiers xml (toujours ko malgrès des cron-en-série) puis je fais les modifs suivantes

  1. dans admin/config/search/xmlsitemap/settings
    Minimum sitemap lifetime -> no min + la front-page est au max (P 1.0, change frequency à always)
    • paramètres avancés:
      1. Number of links in each sitemap page -> auto (reco)
      2. Maximum number of sitemap links to process at once -> était à 10, je le passe à 1000
      3. Sitemap cache directory -> il y a quelques jours (lors update du module), j'avais été changer ce paramètre (sur tous mes sites drupal - en raison de cet article).
        donc, ne pas y toucher (ni les 3 paramètres dessous)
  2. via admin/structure/taxonomy/tags/edit dans la section XML site map: je les baisse à 0.1, car il y aurait trop de lignes en pripority 0.5 dans les .xml générés ?
  3. J'update les 2 fichiers xml + Cron et recron frown
  4. les dits tags sont bien en p 0.1 yes
    C'est généré par drupal (module du core), donc normal que la colonne "Last Modif" soit vide? et pour "change frequency" (retour au point 3)?
  5. dans tous les types de contenu (admin/structure/types), je baisse les priorités + pour ceux non inclus dans xml sitemap + retour au point 3

Ha! Le nombre de liens a changé smiley mais par ex la ligne "6-months-find-my-way" apparait en double, avec des priorités différentes - l'une (celle qui a la nouvelle P) a bien toutes les colonnes remplies + retour au point 3 ;)

Les colonnes "Last Modif" et "change frequency"

ra oui... regarder le code?

cf le premier lien cliqué à savoir http://www.lepetitgeek.com/2014/01/comment-rediger-un-bon-sitemap/

Votre fichier Sitemap doit être enregistré avec un codage UTF-8. Comme pour tous les fichiers XML, les valeurs de données (URL comprises) doivent utiliser des codes d'échappement d'entité pour les caractères suivants:  &  '  "  <  >  - cette mise en forme est généralement automatique.

ca c'est la css <?xml-stylesheet type="text/xsl" href="http://jenny.bourdiol.org/en/sitemap.xsl"?> et urlset indique la version 0.9 - l'article du petit geek parle d'une version antérieure... mais m'a quand meme été utile :)

source: http://www.sitemaps.org/fr/protocol.html

tag changefreq (facultatif)

Le tag changefreq précise: la fréquence probable de modification de la page. Drupal la calculerait, donc? 

Cette valeur fournit aux moteurs de recherche une information générale et ne reflète pas nécessairement la fréquence effective d'exploration de la page.
Les valeurs acceptées sont les suivantes : always (à chaque nouvel accés à l’URL courante), hourly, dayly, weekly, monthly, yearly, never (pour les URL archivées).

la valeur de cette balise est considérée comme une indication, et non comme une commande. Même si les robots d'exploration des moteurs de recherche peuvent tenir compte de cette information, ils ne l'appliquent pas nécessairement de façon stricte. Ainsi, ils peuvent explorer des pages dont la fréquence de modification est "hourly" (horaire) moins fréquemment que cela ou, à l'inverse, explorer des pages dont la fréquence de modification est "yearly" (annuelle) plus fréquemment. Les robots peuvent explorer régulièrement les pages associées à la fréquence de modification "never" (jamais), de façon à traiter les modifications non prévues apportées à ces pages.

tag priority (facultatif)

Priorité de cette URL par rapport aux autres URL de votre site. La priorité par défaut d'une page est égale à 0,5.

Notez que la priorité attribuée à une page n'aura vraisemblablement aucune incidence sur le positionnement de vos URL dans les pages de résultats du moteur de recherche. Les moteurs de recherche peuvent utiliser cette information pour hiérarchiser les URL d'un même site lors de leur sélection. Cette balise vous permet donc d'augmenter la probabilité que vos pages les plus importantes figurent dans l'index de recherche.

En outre, notez que l'attribution d'une priorité élevée à toutes les URL de votre site ne vous sera probablement d'aucune utilité. En effet, cette priorité relative n'est utilisée que pour hiérarchiser les URL de votre site lors de leur sélection.