Auteur de la photo: Andrei Tilin

Présentation

Depuis 5 ans DEFT propose des campagnes d'évaluation dans le domaine de la Fouille de Textes. L'atelier DEFT'10 se tiendra cette année à Montréal dans le cadre de la conférence TALN. L'inscription à TALN comprend également la participation aux ateliers. Une inscription à la seule journée de l'atelier DEFT'10 est possible.

Appel à communication

Où et quand un article de presse a-t-il été écrit ?

Atelier d'évaluation en fouille de textes sur l'identification de la période et du lieu de publication d'articles de presse francophone

Contact : deft10@limsi.fr

Cette campagne d'évaluation bénéficie du soutien de CEDROM-SNi, du CNRTL et de ELDA.

Présentation

DEFT2010, sixième édition de la campagne d'évaluation en fouille de textes, portera sur les variations diachroniques et géographiques en corpus de presse francophones. L'atelier de clôture se tiendra à Montréal dans le cadre de la conférence TALN 2010.

Un locuteur francophone natif est capable de détecter dans une conversation des expressions spécifiques à un pays (par exemple au niveau des nombres "septante" et "nonante" en Belgique et en Suisse contre "soixante-dix" et "quatre-vingt-dix" en France et au Québec, et "huitante" en Suisse vs. "quatre-vingts" dans les trois autres pays).

Un lecteur est également capable de mobiliser des connaissances linguistiques, culturelles et historiques pour identifier la période (sur une échelle plus ou moins grande) de parution d'un article (en identifiant un événement particulier et/ou des tournures linguistiques ou des entités nommées jugées représentatives d'une période donnée).

Comme tout acte de communication, les documents ont une origine et un public visé ; leur nature, c'est-à-dire leurs contenu, niveaux de langue, etc. en dépend fortement. Dans cette édition du défi fouille de textes, nous nous intéressons à l'origine des documents, plus particulièrement à l'époque et au lieu de leur création.

Dans ce cadre, nous proposons plusieurs pistes distinctes et indépendantes.

Piste 1.

Cette piste, relative à la variation diachronique, concerne l'identification de la décennie de publication d'extraits d'articles français d'une taille de 300 mots. Les extraits de ce corpus couvrent une période comprise entre 1800 et 1944.

Le corpus d'apprentissage se composera d'extraits (300 mots) d'articles de quatre titres de journaux différents, le corpus de test intègrera des extraits provenant de ces quatre mêmes titres plus un cinquième titre absent du corpus d'apprentissage, de manière à éprouver la robustesse des systèmes.

Piste 2.

L'identification de l'origine géographique de chaque document (pays d'origine) constituera la seconde piste de cette campagne. Elle reposera sur des corpus de presse rassemblant plusieurs titres provenant de France et du Québec.

Présentation générale

Pour ces deux pistes, les participants ont eu la possibilité d'utiliser des ressources externes (linguistiques, historiques, etc.) qu'ils doivent obligatoirement déclarer. En ce qui concerne plus spécifiquement la piste 1, les ressources provenant de Gallica n'ont pas été autorisées.

Les participants ont été invités à participer aux deux pistes. Il est cependant possible de ne participer qu'à une seule des pistes.

Des corpus d'apprentissage ont été fournis aux participants inscrits, à partir du 31 mars 2010. Ces corpus sont composés de 60% des corpus d'origine. Les 40% de corpus restants ont été utilisés pour le test. Le test s'est déroulé sur une semaine, du 31 mai au 4 juin. Les participants ont bénéficié de trois jours pour appliquer, sur les corpus de test, les méthodes mises au point sur les corpus d'apprentissage et nous retourner leurs résultats d'analyse.


Dates importantes :

  • Inscription : à partir du 25 janvier 2010. Les équipes souhaitant participer à DEFT 2010 devront s'inscrire à l'aide du formulaire en ligne et signer les accords de mise à disposition des corpus.
  • Diffusion des corpus d'apprentissage : à partir du 31 mars 2010
  • Test : au choix, 3 jours dans la semaine du 31 mai au 4 juin 2010
  • Diffusion des résultats : le 8 juin 2010
  • Soumission des articles : le 22 juin 2010
  • Atelier de clôture : le 23 juillet 2010 lors de la conférence TALN
    Programme de la journée : PDF [827 Ko].

Comité d'organisation :

  • Dominic Forest (EBSI, UdeM)
  • Cyril Grouin (LIMSI-CNRS)
  • Lyne Da Sylva (EBSI, UdeM)

Nouvelles

..................................................

Bienvenue à tous

Veillez noter que nous serons prêts à vous accueillir sur le site de la conférence, au pavillon Jean-Coutu, dès 8h00 le lundi 19 juillet. Plus de détails dans la section Comment venir à TALN.
..................................................

Cocktial de bienvenue au CRIM

Le cocktail de bienvenue de TALN 2010 aura lieu au Centre de recherche informatique de Montréal, à 19h00, le lundi 19 juillet. Nous vous y guiderons immédiatement après la dernière séance du lundi. Si vous désirez vous y rendre par vos propres moyens, notez que le CRIM est situé au 405, avenue Ogilvy, bureau 101, à deux pas du métro Parc.
..................................................

Regards et jeux dans l'espace

Cette année, TALN rend hommage aux grands poètes québécois, notamment à Hector de Saint-Denys Garneau, précurseur de la modernité en poésie québécoise.
..................................................

Sortie touristique au Fort Chambly

Cette année à TALN, le banquet aura lieu au restaurant Fourquet Fourchette, où on sert des plats inspirés par la cuisine traditionnelle du Québec et la cuisine amérindienne. Le restaurant est sur le site historique du Fort Chambly, sur le bord de la rivière Richelieu. Ce fort a été construit en 1711 pour protéger la Nouvelle-France d'une éventuelle invasion britannique.
..................................................

Un nouveau festival à Montréal

Depuis le 8 juillet, et jusqu'au 25 juillet, se déroule de festival MONTRÉAL COMPLÈTEMENT CIRQUE, le premier festival des arts du cirque de Montréal. Répartis sur plusieurs sites dans la Ville, plusieurs spectacles et activités gratuites réuniront des artistes du cirque provenent de partout dans le monde.
..................................................

Montréal, ville festive

Principale agglomération francophone du Canda, Montréal se démarque par les nombreux festivals qui s'y déroulent tout au long de l'année. Un des plus fameux, le Festival International de Jazz de Montréal, aura lieu du 25 juin au 6 juillet. Du 2 au 25 juillet, les rues du centre-ville seront envahies par les amuseurs publics, dans le cadre du Festival Juste pour rire.