Ouverture du service HTR Cremma
1 déc. 2022 - 30 nov. 2027 Paris (France)

Gabarit et instructions sur les dépots

Les projets retenus après dépôt de demande de soumission devront signaler leur(s) jeu(x) de données de vérité de terrain (entraînement) dans le catalogue HTR-United. Nous recommandons donc fortement d'entamer tôt une réflexion sur le traitement particulier des données d'entraînement (définition du corpus d'entraînement, des règles d'annotation, personnes impliquées, etc.).

 

Document de soumission

Nous proposons à titre indicatif un modèle de document de soumission (télécharger le gabarit).

Dans tous les cas, le document de soumission doit comprendre les éléments suivants :

  • une présentation courte du projet ;
  • une présentation courte des sources du ou des corpus concerné(s) ;
  • des indications volumétriques, notamment :
    • le nombre d'images/pages prévues pour l'éventuelle vérité de terrain ;
    • le nombre d'images/pages à traiter au total ;
  • des précisions sur le mode de disponibilité des images primaires (par ex: via IIIF) ;
  • des précisions sur le nombre de comptes à créer ;
  • une mention explicite demandant l'activation des droits d'entraînement (et les utilisateur·rices concerné·es) ;
  • l'engagement de répertorier la vérité de terrain dans HTR-United ;
  • des précisions sur le mode d'hébergement de l'éventuelle vérité de terrain et des éventuels modèles en découlant ;
  • l'engagement de respecter les principes de la science ouverte et de garantir des données FAIR.

Les porteur·ses de projets retenus s'engagent à :

  • rendre public le projet et communiquer des informations à son sujet (page(s) web, blog(s), carnet(s) de recherche, etc.) ;
  • assurer l'ouverture des données et leur pérennisation ;
  • préciser et justifier d'éventuelles clauses d'embargo ;
  • autoriser la réutilisation des données pour l’entraînement de l’équipement (hors publications et diffusion des dites données).

 

Précisions sur les modalités de dépôt de vérité de terrain

Nous recommandons fortement de déposer les jeux de données d'entraînement sur des plateformes ouvertes permettant l'obtention de liens permanents, voire de DOI. Ce lien permanent est essentiel pour que les données puissent être trouvées et réutilisées.

Les données d'entraînement devraient être déposées au moins dans l'un des deux formats pris en charge par l'application d'HTR eScriptorium (XML ALTO ou XML PAGE) et être accompagnées soit des images, soit d'indications claires sur les moyens de récupérer les images correspondant aux fichiers XML. En plus de ces élements, le dépôt devrait être accompagné d'une license explicite ainsi que d'un fichier de description explicitant le contenu du jeu de données, les contributeur-rices, ainsi que les règles suivies pour l'annotation (segmentation et transcription).

HTR-United propose un gabarit de dépôt de données dont il est possible de s'inspirer.


Comité scientifique

François Bougard, Jean-Baptiste Camps, Alix Chagué, Thibault Clérice, Vincent Jolivet, Nicolas Perreaux, Christophe Pottier, Laurent Romary, Peter Stokes


Pour toute demande de renseignement, vous pouvez nous contacter à l’adresse suivante : cremmacall@sciencesconf.org

Personnes connectées : 2 Vie privée
Chargement...