Editor for this issue: Ann Dizdar <dizdar
tam2000.tamu.edu>
repondre APPEL A PARTICIPATION - Session d'evaluation GRACE I Evaluation de systemes d'assignation de categories grammaticales GRACE: Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation G. Adda (Limsi) - J. Mariani (Limsi) - P. Paroubek (INaLF) - M. Rajman (ENST) =================== Qu'est-ce que GRACE ? --------------------- L'action GRACE est une composante du programme thematique "Cognition, Communication intelligente et Ingenierie des langues" dont les responsables sont J. Mariani (Limsi) et R. Martin (INaLF). Elle vise a la mise en place du paradigme d'evaluation pour les analyseurs morpho-syntaxiques et syntaxiques du langage naturel et la constitution d'un premier noyau de donnees reutilisables pour l'evaluation de systemes linguistiques d'analyse du francais. La documentation technique du projet est accessible sur le site temporaire ftp GRACE <URL:ftp//ftp.linguist.jussieu.fr/Linguist/GRACE> (Attention ! Cette adresse changera dans un avenir proche). Une forme developpee de ce document, au format PostScript compresse avec gzip est accessible depuis : <URL:ftp//ftp.linguist.jussieu.fr/Linguist/GRACE/doc/appel.1.ps.gz> Organisation - ---------- L'action GRACE comprend trois entites. Le comite de coordination, charge de la gestion du projet, comporte 4 personnes, Nadine Lucas (Limsi), J. Mariani (Limsi), Max Silberztein (LADL), et P. Paroubek (INaLF) animateur. Le comite de reflexion, charge des questions scientifiques, regroupe des chercheurs en informatique et en linguistique provenant de differents laboratoires francais. Il est anime par M. Rajman (ENST Paris) et G. Adda (Limsi); y participent : Anne Abeille, (TALANA), Jean-Pierre Chanod (RXRC), Marc El-Beze (U. Avignon), Christian Fluhr (INSTN CEA), Nabil Hathout (INaLF), Christophe Jouis (Lille 3), J.-P. Descles (CAMS), Pierre Lafon (ENS Saint-Cloud), Rober Martin (INaLF), Jean Veronis (Langage et Parole Aix), Philippe Blache (2LC CNRS), Christian Boitet (GETA), Stephane Chaudiron (MESR DIST), Laurence Danlos (TALANA), Christophe Fouquere (LIPN), Guy Perennou (IRIT), Violaine Prince (Limsi), Benoit Habert (ENS Fontenay). La troisieme entite de l'action GRACE est constituee par l'ensemble des participantsaux sessions d'evaluation. Qu'est-ce que la session d'evaluation GRACE I - ------------------------------------------- La session d'evaluation GRACE I a pour objectif d'evaluer comparativement les performances des systemes d'assignation de categories grammaticales pour le francais. L'evaluation sera une evaluation multi-criteres (tous systemes confondus et par classes de systemes) permettant ainsi de tenir compte des specificites des systemes liees aux conditions qui ont suscite leur creation. Qui peut participer ? - -------------------- Toute equipe disposant d'un assignateur de categories grammaticales OPERATIONNEL pour le francais. Que ce soit un systeme generique developpe dans le but d'emuler un operateur humain dans la tache d'assignation de categories grammaticales sur du texte libre, ou bien un systeme specifique a un traitement linguistique particulier, destine a etre integre dans une chaine de processus plus complexe et dont l'objectif se situe au-dela de l'assignation de categories grammaticales (e.g. correcteur orthographique). L'activite sectorielle de l'equipe (institution publique, entreprise industrielle) ainsi que sa nationalite (les equipes etrangeres travaillant sur le francais sont les bienvenues) ne sont pas discriminantes. Rappelons que toutes les equipes qui disposent d'un systeme operationnel ont interet a participer a la session d'evaluation GRACE I, car cela fournira, pour la premiere fois, des points de comparaison objectifs sur des donnees communes dans un environnement neutre, donnant ainsi aux developpeurs de tels systemes, chercheurs et ingenieurs, une meilleure vision des avantages et defauts lies aux differentes methodes et differentes approches. Echeancier - -------- La date limite pour repondre a cet appel est prolongee (du 04 Decembre 1995) jusqu'au 13 Decembre 1995. Comment se deroulera la session d'evaluation GRACE I ? - ---------------------------------------------------- La session d'evaluation se deroulera en 3 phases : - phase 1: Apprentissage. Distribution des donnees d'apprentissage aux participants. Ces donnees comprennent : a)- un corpus brut d'apprentissage, de 10 millions environ d'occurrences (provenant a parts egales du journal "Le Monde" et de la base FRANTEXT de l'INaLF). b)- la version du lexique MULTEXT qui a ete mise a disposition du projet GRACE c)- un logiciel de segmentation developpe pour GRACE a partir du lexique MULTEXT dans un environnement UNIX - phase 2: Essais. Fourniture aux participants d'un texte d'environ 200.000 occurrences extraites du corpus d'entrainement et mesure des performances des systemes participants sur 20.000 de ces occurrences. Ceci afin de tester la procedure d'evaluation. Le marquage devra etre effectue dans un delai fixe. Les resultats seront communiques individuellement a chaque participant mais ne seront pas publies. - phase 3: Evaluation. Repetition de la phase 2, avec publication des resultats, et conference reservee aux ``seuls'' participants pour comparer les methodes et discuter des resultats de l'evaluation. Cette conference sera suivie d'une conference ouverte a tous sur l'evaluation des analyseurs morpho-syntaxiques. Voici l'ebauche d'un calendrier previsionnel qui pourra etre revu en fonction de l'avancement du projet et des disponibilites des participants: - phase 1: des que possible, - phase 2: autour de la fin de cette annee (Decembre 95/Janvier 96), - phase 3: au debut de l'annee prochaine (Fevrier 96). En ce qui concerne les mesures de performance, il y aura une mesure globale pour tous les systemes confondus et une mesure par classe de systemes, les participants choisissant la ou les classes dans lesquelles ils desirent participer parmi une liste preetablie. L'evaluation se fera essentiellement sur les capacites de desambiguisation. Nous avons decide d'imposer aux participants les informations lexicales d'ou tous les jeux d'etiquettes seront derives, ainsi ils devront fournir les fonctions de correspondance entre les jeux d'etiquettes qu'ils utilisent et ceux des lexiques de GRACE. L'evaluation se fait alors en comparant l'entree du categoriseur et sa sortie. Cette evaluation ne prend pas en compte les capacites de segmentation des categoriseurs. Engagements des participants - -------------------------- Outre les engagements concernant les donnees recues, les participants qui auront commence la session d'evaluation GRACE I, s'engageront a prendre part a l'integralite de la session d'evaluation. Pour l'evaluation, chaque participant devra fournir une table de correspondance entre son jeu d'etiquettes et les etiquettes MULTEXT (des exemples de tables de correspondance seront fournis). Demande de participation - ---------------------- Les 6 informations a fournir pour demander a participer sont les suivantes: 1 - le nom de l'institution ou du laboratoire, 2 - l'adresse de l'institution ou du laboratoire, 3 - le nom et les coordonnees (tel., fax, email) de la personne responsable de la participation a la session GRACE I, 4 - le nom du ou des systemes presentes, 5 - la ou les categories dans lesquelles ces systemes sont presentes (voir liste ci-apres), 6 - la reference d'une publication decrivant le ou les systemes presentes, ou la reference d'une notice commerciale portant sur le ou les systemes presentes. A qui repondre ? - -------------- Par courrier electronique, fax ou courrier a : Patrick Paroubek ACTION GRACE INALF - CNRS Chateau du Montet rue du Doyen Roubault 54500 Vandoeuvre les Nancy France phone: (33)(16) 83 44 74 46 fax: (33)(16) 83 44 38 29 email: papMail to author|Respond to list|Read more issues|LINGUIST home page|Top of issueinalf.ciril.fr Les classes de systemes - --------------------- Les participants choisissent la ou les classes dans lesquelles ils desirent participer parmi la liste suivante : 1. extraction d'information (a) recherche documentaire en texte integral (b) filtrage de documents (c) routage automatique de documents (d) indexation automatique de documents (e) extraction automatique de resumes (f) extraction de lexiques terminologiques (g) extraction de lexiques multilingues (h) extraction de donnees semantiques (*** nouvelle categorie ***) 2. analyse/validation (a) lemmatisation (b) segmentation automatique de texte (c) analyse syntaxique automatique (d) correction orthographique (e) reaccentuation automatique (f) evaluation de style (g) estimation de modeles k-grammes et k-classes de langages (h) analyse de donnees textuelles (i) alignement de corpus multilingues (j) annotation syntaxique et semantique de corpus 3. transformation/generation (a) traduction assistee (b) traduction automatique (c) transcription phonologique de corpus orthographique (reconnaissance automatique de la parole) (d) conversion graphemes-phonemes (e) composition assistee de phrases (f) generation automatique de documentation (g) EAO du francais langue etrangere