FLASH INFORMATIQUE FI



Moteur de recherche Google Search Appliance à l’EPFL




Maciej MACOWICZ


JPEG - 9.6 ko
fig. 1
Le moteur de recherche Google Search Appliance GSA-1001

L’année dernière nous avons lancé un projet de refonte de l’interface de recherche de l’information à l’EPFL. L’objectif était avant tout d’améliorer la pertinence des résultats obtenus. Nous avons choisi de présenter dans des onglets différents d’une seule interface utilisateur les résultats de recherche dans l’annuaire téléphonique, dans l’ensemble de pages Web de l’EPFL, dans la base de publications scientifiques ((Infoscience)) et finalement dans l’ensemble des actualités telles les revues et les communiqués de presse ou le Flash.
Comme les résultats affichés dans deux onglets (sur quatre) proviennent de moteur de recherche interne indexant les pages Web de l’EPFL, nous avons commencé le projet par le choix du remplaçant du moteur Inktomi [1] ; notre choix s’est porté sur le moteur GSA-1001 (Google Search Appliance, fig. 1) proposé par Google [2] : GSA-1001 est donc un serveur fonctionnant sous une variante de Linux optimisée pour l’indexation et la recherche de l’information, similaire aux serveurs que Google exploite dans ses dépôts de données pour le service google.com. GSA-1001 est une (boîte noire) ? : seuls les accès à travers une interface Web pour l’administration du serveur et recherche sont possibles.
Le serveur GSA-1001 a donc été installé dans les locaux du DIT et connecté au réseau de l’EPFL en début de l’année, il a aussitôt commencé à construire l’index du domaine epfl.ch. En même temps nous avons développé l’interface de recherche mise en production le 24 avril dernier.

Fonctionnement

Le moteur de recherche parcourt les ressources (fichiers) accessibles sur le Web de l’Intranet de l’EPFL et construit l’index structuré en collections. D’un autre coté les utilisateurs ont la possibilité d’effectuer les recherches et obtenir les résultats à travers les frontaux (fig. 2).

JPEG - 3.3 ko
fig.2
Fonctionnement du moteur de recherche Google

Index

L’index du moteur comporte les ressources (fichiers) accessibles depuis la page www.epfl.ch à l’exclusion de divers miroirs (principalement documentations de Java, Linux, ...) et certaines applications Web. Le moteur Google permet aux Webmasters d’exclure certaines ressources Web de l’indexation soit en éditant le fichier robots.txt correspondant [3], soit en mettant certaines balises META dans les pages Web [4]. Plus de 220 formats de fichiers dont HTML, PDF, Microsoft Word, Excel et Powerpoint sont reconnus lors de l’indexation. Notons cependant que le GSA n’indexe pas les images, vidéos, sons, ... Les ressources sont indexées seulement si leur taille ne dépasse pas 30MB ; lors de l’indexation les ressources sont transformées en HTML dont seuls les deux premiers méga-octets sont pris en compte.

Collections

Une collection est un sous-ensemble de l’index défini par les groupes d’URL. Une collection correspond habituellement à un domaine spécifique, par exemple faculté, institut, un groupe de recherche inter-faculté... Pour le moment nous n’avons défini qu’une collection pour les actualités de l’EPFL.

Frontaux

Les frontaux permettent de décrire les échanges entre l’utilisateur et le moteur ; un frontal comporte :

  • Les présentations du formulaire et de la liste de résultats de la recherche définis par feuille XSLT.
  • Synonymes de termes recherchés ; ils peuvent être proposés par les utilisateurs [5]
  • Liste de liens sponsorisés permettant de mettre certains sites en tête de la liste de résultats d’un terme donné. Actuellement la recherche de sigles de facultés et de sections retourne en tête de liste de résultats les sites Web correspondants ; les profils des personnes sont également mis en tête de liste. Ces liens peuvent par ailleurs être proposés par les utilisateurs [5].
  • Filtres : un frontal peut présenter les résultats s’ils correspondent à certains critères, tels langue, type MIME, valeurs spécifiques de balises META, ...

Etat actuel et futur

Le moteur GSA-1001 est en production à l’EPFL depuis plus d’un mois et demi, les impressions de cette période sont très positives tant en termes de stabilité que de pertinence de résultats, qui peut encore être affinée par les synonymes ou liens sponsorisés demandés par les utilisateurs. Le moteur permet d’obtenir les statistiques détaillées de recherches : à titre d’exemple nous donnons les listes de recherches les plus fréquentes depuis l’intranet de l’EPFL (domaine epfl.ch) et l’extranet :

| Intranet | Extranet | | "imap" | "imap" | | "distrilog" | "vpn" | | "poseidon" | "poseidon" | | "gaspar" | "webmail" | | "is academia" | "emploi" | | "vpn" | "cours" | | "repro" | "calendrier académique" | | "agepoly" | "these" | | "gestac" | "balelec" | | "sac" | "agepoly" | | "balelec" | "mailbox" | | "camipro" | "polyathlon" | | "mailcleaner" | "parasismique" | | "calendrier académique" | "logo" | | "vivapoly" | "cms" | | "mailbox" | "inscription" | | "dit" | "flash" | | "shs" | "job" | | "flash" | "mail" | | "tsol" | "matlab" |

Pour le moment le moteur GSA sert seulement pour l’interface de recherche fédérée search.epfl.ch ; dans le futur proche nous pensons mettre en place au KIS une prestation recherche de l’information, permettant aux webmasters ou développeurs des applications Web de l’EPFL la création de collections personnalisées et dans une certaine mesure de frontaux.

[1] Francis Lapique. Choix d’un moteur de recherche pour le site EPFL. FI7/01, http://dit.epfl.ch/publications/FI01/fi-7-1/7-1-page4.html.

[2] Google Search Appliance. http://www.google.com/enterprise/gsa/index.html.

[3] robots.txt. http://fr.wikipedia.org/wiki/Fichier_d’exclusion_des_robots.

[4] Contrôler l’indexation. http://atelierweb.epfl.ch/page16119.html.

[5] Votre site en tête de liste. http://atelierweb.epfl.ch/page16376.html.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.