[Logo CICT]

Statistiques des services WWW hébergés au CICT

Le CICT a mis en place un nouvel outil (webalizer en remplacement de wusage) pour faire les statistiques des sites Web qu'il héberge. Voir les conditions de mise en oeuvre ici. Il est à noter que les statistiques sont faites par service hébergé, c'est-à-dire pour chaque nom DNS. En particulier, les statistiques du service web de l'UTM sont faites globalement, et non pas pour chaque sous-service. Les points marquants sont les suivants :

Vous pouvez voir un exemple de statistiques, celles du CICT.

Définition de quelques termes

Webalizer fait des statistiques sur les hits, les fichiers, les pages et les visites, etc. Ces termes nécessitent quelques éclaircissements.

hit
Toute demande au serveur est un hit (fichier de tout type, HTML, PHP, image, script CGI,...)
fichier
Tout document (fichier ou document dynamique) renvoyé par le serveur en réponse à une demande. Un hit renvoie un fichier ou une erreur
page
Tout fichier renvoyé de type HTML (webaliser compte cela approximativement en se basant sur le suffixe de l'objet demandé, cela comprend les pages PHP).
visite
Une visite consiste en plusieurs demandes successives rapprochées dans le temps d'un même client. Une personne qui consulte dix pages compte pour une visite. La première page lue est la page d'entrée, la dernière la page de sortie
site unique
Nombre d'adresses IP (de clients) différentes. Plusieurs visites peuvent provenir d'un site si elles sont séparées dans le temps.
Ko
Donne le volume des fichiers renvoyés en kilo-octets (soit 1024 octets).
référent unique
Un référent est le document que consultait un visiteur lorsqu'il a cliqué sur un lien l'amenant sur une de vos pages web. webalizer sait (plus ou moins bien) agréger les référents venant de moteurs de recherche tels que google. Les référents provenant de votre site ne sont pas pris en compte.
utilisateur unique
un utilisateur s'est authentifié lors d'un passage sur des pages à accès réservé. Si votre site n'utilise pas de contrôles d'accès, il n'y a pas d'utilisateur!
mot-clé
Il s'agit des mots-clés contenus dans les référents provenant des moteurs de recherche tels que Google.

Avertissement

Les chiffres donnés par webalizer sont à prendre avec circonspection. Comme pour tout outil de ce type, les chiffres n'ont pas de valeur absolue (les accès ne figurent pas tous dans les journaux du serveur, pour des raisons liées aux caches, et les logiciels de statistiques ne suivent pas de normes pour ces mesures, du moins je n'en connais pas l'existence). C'est l'évolution de ces chiffres (jour après jour, mois après mois, etc.), mesurés par le même logiciel avec les mêmes réglages, qui a seule un sens.

Paramétrage des statistiques

Webalizer utilise un fichier de configuration permettant à chacun d'adapter les statistiques produites à ses besoins. Par défaut, les statistiques sont produites selon les informations contenues dans le fichier standard webalizer.conf. Pour utiliser un paramètrage différent, en installer une version modifiée dans le répertoire web de votre compte, avec le même nom. Se baser sur les commentaires figurant dans le fichier de configuration. Bien lire le paragraphe intitulé Incremental Processing dans le fichier README. Le programme de création des statistiques ne prend en compte votre fichier webalizer.conf que le premier de chaque mois (il en fait une copie qu'il utilise le restant du mois).

Statistiques de sous-ensemble d'un service

Les responsables techniques de services web peuvent souhaiter faire des statistiques indépendantes pour certaines parties de leur service. Il est possible de faire des statistiques à la demande, en exploitant les journaux disponibles (4 semaines plus la semaine en cours). Il est possible de faire ensuite une mise à jour automatique de ces statistiques. Ces opérations sont réservées aux personnes ayant une certaine maîtrise d'Unix. Voici comment procéder :

Statistiques à la demande

Faire une copie du script faireStatSpecial.sh dans votre répertoire web sous le nom que vous voudrez (faireStatSpecial.sh dans l'exemple ci-dessous), et l'adapter à vos besoins. Ce script sélectionne grâce à la partie path de l'URL certaines requêtes dans les journaux de votre service Web. Un répertoire dans l'espace disque du service (sous web/docs) sera créé pour accueillir les pages produites par webalizer (les statistiques principales sont créées dans l'espace disque propre au CICT).

Lorsqu'il est lancé interactivement (connecté sur aurore par telnet), ce script crée des statistiques à partir des fichiers journaux disponibles (en principe la semaine en cours et les 4 précédentes). Lorsque le calcul est terminé, il indique l'URL où les statistiques sont disponibles. Rendre ce script exécutable éventuellement, et le lancer :

chmod u+x web/faireStatSpecial.sh
web/faireStatSpecial.sh

Comme expliqué ci-dessus, webalizer prend comme paramètres ceux du fichier webalizer.conf. Si on souhaite des paramètres différents, en modifier une copie, et l'installer dans votre répertoire web (si le fichier est nommé webalizer.conf il sera aussi pris en compte par les statistiques globales du service ; si ce n'est pas désiré, choisir un nom différent).

Si on veut tester plusieurs paramétrages, on peut lancer plusieurs fois ce script après avoir effacé les fichiers créés lors du précédent passage (ou en changeant de répertoire).

Statistiques automatiques

Si des statistiques sont souhaitées pour l'avenir, on peut mettre à jour automatiquement celles créées dans l'étape précédente. Il appartient aux gestionnaires de service de faire tourner webalizer toutes les nuits. À cette fin, placer une ligne sur le modèle ci-dessous dans le crontab du serveur web (cet exemple passe à 3h 13, choisir une autre heure, et mettre le vrai nom de votre script) :
13 3 * * * $HOME/web/faireStatSpecial.sh
Pour modifier crontab, faire :
crontab -e

Auteur : Jean-Pierre Gallou
Mis à jour le 15/03/04
[Sommaire CICT] CICT
Vos commentaires sur ce serveur : www@cict.fr