Workshops et sessions de travail
Philologie computationnelle: au delà de l’encodage du texte
Jeudi 2 et vendredi 3 décembre 2021. Genève, Pavillon Ansermet (le 2 décembre), salle Mirabeau (le 3 décembre)Ìý
Organisation: Benedetta Salvati (doctorante à l’UniL), Aude Sartenar (doctorante à l’UniGE) et Simon Gabay (maître-assistant à l’UniGE)
Nous nous proposons, à l’aide de spécialistes de linguistique computationnelle, de présenter l’état de la recherche ainsi que les derniers outils en cours de développement. L’accent sera mis sur le français pré-orthographique, avec un intérêt particulier pour le français moyen et moderne (1400-1700). L’absence de stabilité du système graphique à ces époques est à la fois un véritable obstacle à l’étude de ces états de la langue, jusqu’à présent très délaissés par la recherche, mais aussi des objets d’études particulièrement riches pour les approches computationnelles.ÌýNous aborderons ainsi la question des modèles de langue, ces modélisations statistiques de la distribution des mots, qui sont au cÅ“ur de la linguistique computationnelle actuelle.
Ìý
Ces modèles sont utilisés dans une multitude de tâches de TAL, dont trois ont été identifiées comme particulièrement utiles pour les philologues.
- L’analyse du changement linguistique, et notamment d’un lexique, en diachronie: quels mots apparaissent, quels mots disparaissent?
- La reconnaissance des entités nommées, et notamment les noms de lieux: il est ainsi possible de produire des cartes qui permettent la «lecture distante», si plébiscitée en humanités numériques.
- La normalisation linguistique automatique: comment transformer des transcriptions diplomatiques (±ðÅ¿³Ù´Ç¾±³Ù) en transcriptions interprétatives (estoit) ou normalisées (é³Ù²¹¾±³Ù)?
Ìý
Programme prévisionnel :Ìý
Ìý
2 décembre, Pavillon Ansermet )
- 9h-10h30 Traitements numériques pour l'analyse du changement linguistique (Lucence Ing, ENC|PSL)
- 10h30-11h Pause
- 11h-12h30 TP
ÌýÌýÌý DÃŽNER, Café du Lys ()
- 14h-15h30 La reconnaissance optique de caractères: imprimés, manuscrits (Alexandre Bartz, Sorbonne ±«²Ô¾±±¹±ð°ù²õ¾±³Ùé)
- 15h30-16h Pause
- 16h-17h30 TP: le projet FoNDUE
- 17h30-18h Pause
- 18h-19h Keynote: Modèles de langue: histoire et objectifs (Benoît Sagot, INRIA)
ÌýÌýÌýSOUPER, Cave Valaisanne ()
3 décembre,Ìýsalle Mirabeau ()
- 9h-10h30 Reconnaître les entités nommées (Pedro Ortiz, INRIA)
- 10h30-11h Pause
- 11h-12h30 TP
ÌýÌýÌý DÃŽNER, Café du Grütli ()
- 14h-15h30 Normaliser la langue (Rachel Bawden, INRIA)
- 15h30-16h Pause
- 16h-17h30 TP