Le catalogue des manuscrits de Venise, ou Մայր ցուցակ հայերէն ձեռագրաց մատենադարանին Մխիթարեանց ի Վենետիկ, réalisé par les Pères Mékhitaristes de Venise est un ouvrage fondamental pour les études arméniennes. Il recense plus de 2000 manuscrits de la collection du monastère Mékhitariste de l’Île Saint-Lazare à Venise, une des bibliothèques les plus riches en livres et manuscrits arméniens.
Chaque manuscrit y est décrit en détail : titre, date et lieu de copie, nom du copiste, description du contenu, nombre de pages, dimensions, etc. La particularité de ce catalogue réside dans son organisation thématique. Les œuvres sont classées par thèmes tels que les bibles, chroniques, livres de chant, etc., ce qui peut compliquer les recherches lorsque le thème de classification est inconnu. À ce jour, environ un tiers des manuscrits de Saint Lazare ne sont pas encore inclus dans le catalogue.
Le catalogue, comportant 1,3 million de mots sur 6250 pages réparties en 8 volumes, était disponible sous forme de PDF, numérisé et rendu disponible par la FSL (lien). Le défi technique, relevé par Calfa en collaboration avec les Pères Mékhitaristes, consistait à transformer ce PDF en une base de données structurée, prête à être publiée en ligne avec un moteur de recherche.
Une contrainte majeure était de travailler avec des scans anciens et de qualité moyenne. Malgré des zones floues et la pixelisation du texte due à la compression antérieure du PDF, l’OCRisation (reconnaissance automatique de texte) a été réalisée efficacement grâce aux modèles d’OCR spécialisés en arménien imprimé, capables de gérer ces difficultés. Nos modèles ont été adaptés à la structure du catalogue afin d’identifier à la volée de premières informations comme le titre du manuscrit, sa date de copie, les métadonnées essentielles et la description faite par les Pères.
L’autre tâche consistait à structurer le texte pour créer automatiquement la base de données. Il s'agissait d'identifier les champs sémantiques dans les pages en détectant les éléments des notices (titre, date de copie, etc.) ainsi que les entités nommées (nom du copiste, du commanditaire, du relieur, de l’enlumineur, lieu de copie), pour les classer et les lier automatiquement dans la base. Cette étape a été possible grâce au développement d’un modèle hybride d’analyse de l’arménien classique et moderne spécialisé pour ce catalogue.
Cette méthode a été couronnée de succès, avec un taux de reconnaissance OCR de 99,2 % pour ces PDF anciens et dégradés en arménien imprimé. Un premier tour de relecture manuelle a été réalisé sur les métadonnées les plus importantes (titres, dates et informations chiffrées comme le nombre de pages ou les dimensions). Les quelques erreurs résiduelles, souvent localisées sur des confusions fréquentes de certaines lettres, vont progressivement être corrigées au fil de l’utilisation du catalogue.
Le catalogue est maintenant accessible en ligne sur le site des Pères Mékhitaristes de Venise, avec un moteur de recherche permettant de trouver un champ spécifique ou un mot directement dans le texte brut. Cette fonctionnalité facilite grandement les recherches, en surmontant les limites du classement thématique initial.
Ce projet est un bon exemple d’utilisation de l’IA pour l’automatisation de la récupération et valorisation de données structurées, et la méthode est désormais en place pour le traitement de catalogues arméniens.
Nous avons également publié les données brutes du projet en open access sur GitHub.
Un projet conduit entre 2022 et 2024 avec l'aide et le soutien de la congrégation des Pères Mekhitaristes de Venise.