Editor for this issue: Dina Kapetangianni <dina
linguistlist.org>
CALL FOR PAPERS Appel � communications Journ�e d'�tude de l'ATALA "Constitution et exploitation de corpus du fran�ais parl�" Claire Blanche-Benveniste & Jean V�ronis 25 mai 2002, Paris Th�me - --- Alors qu'on dispose de plusieurs centaines de millions de mots de textes �crits (et que le gigantesque r�servoir qu'est le World Wide Web repousse chaque jour cette limite), on dispose de tr�s peu de donn�es sur l'oral. Les corpus de langue orale transcrite sont pourtant d'une importance fondamentale pour l'�tude linguistique, comme pour la mise au point de nouvelles technologies vocales. Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont disponibles (British National Corpus, Santa Barbara Corpus of American English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux viennent de voir le jour pour d'autres langues (Corpus Gesproken Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais Parl�, etc.), qui visent une taille de l'ordre de la dizaine de millions de mots. Il n'existe pas pour l'instant de grand projet national pour le fran�ais, mais uniquement des entreprises par des �quipes individuelles, et il est difficile d'�valuer la quantit� totale des donn�es informatis�es, mais elle ne d�passe certainement que de peu le million de mots. Le d�veloppement de corpus oraux transcrits est extr�mement co�teux, et demande une m�thodologie stricte, appuy�e sur des outils informatiques ad�quats. Le but de cette journ�e est de r�unir linguistes et informaticiens pour faire le point sur la situation concernant le fran�ais, et peut-�tre de tracer quelques pistes pour des recherches et collaborations futures. Les th�mes abord�s seront (liste non exhaustive) : - probl�mes de constitution des corpus oraux : choix des locuteurs et des situations, �chantillonnage �ventuel, conventions de transcription, probl�mes juridiques et �thiques, etc. ; - techniques et outils informatiques : �tiquetage grammatical, marquage prosodique, alignement avec le son, outils de concordance et de recherche, etc. ; - analyse linguistique : quels types d'analyse sont possibles sur les corpus oraux transcrits ? quelles sont les difficult�s et les limites ? quelles sont les cons�quences pour l'�tude grammaticale de la prise en consid�ration des corpus oraux ? etc. - domaines d'application : quelle est la demande sociale pour les corpus oraux (�tude de diff�rentes "variations", comme les enfants, les "pathologiques" et non pathologiques, les r�gions, le fran�ais de France et de l'ext�rieur) ? quelle est la demande technologique (reconnaissance vocale) ? quelle est la demande pour l'enseignement du fran�ais (langue premi�re et seconde) ? Les communications pourront �galement relater des exp�riences particuli�res de constitution et d'exploitation de corpus oraux. Conf�rencier invit� - ----------------- Michael McCarthy, Universit� de Nottingham "Spoken corpus design : speakers, contexts and language use" Michael McCarthy est professeur de linguistique appliqu�e � l'Universit� de Nottingham et sp�cialiste des corpus d'anglais parl�. Il est l'un des cr�ateurs du corpus CANCODE (Cambridge and Nottingham Corpus of Discourse in English), produit d'une collaboration entre l'Universit� de Notthingham et Cambridge University Press et comportant plusieurs millions de mots d'anglais parl�. Michael McCarthy a publi� de nombreux ouvrages tels que "Discourse Analysis for Language Teachers" (Cambridge University Press, 1991), "Language as Discourse" (avec R. A Carter, Longman, 1994), "Exploring Spoken English" (avec R. A Carter, Cambridge University Press, 1997), "Spoken Language and Applied Linguistics" (Cambridge University Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A Carter, Cambridge University Press, Cambridge, 2000) and "Issues in Applied Linguistics" (Cambridge University Press, Cambridge, 2000). Soumission (modalit�s) - ------------------- Un r�sum� de deux � quatre pages doit �tre envoy� avant le 31 mars 2002 par courrier �lectronique, en format RTF ou TXT uniquement � Jean V�ronis <Jean.VeronisMail to author|Respond to list|Read more issues|LINGUIST home page|Top of issueup.univ-mrs.fr> Les notifications d'acceptation seront envoy�es le 30 avril 2002. Pour plus d'informations sur l'ATALA et sur l'organisation des journ�es d'�tudes, consultez le site de l'ATALA � l'adresse http://www.atala.org