Bonjour Raphbey
Comme vous parlez du vieux français et comme c’est un peu ma spécialité depuis plus de dix ans, je me permets d’intervenir pour vous en dire un peu plus. Dans les faits, c’est un peu plus compliqué que cela...
Quand
Google (ou la
B.N.F.) scannent un ouvrage ils le font d’abord en
mode image. En clair c’est une photographie formée de points organisés en lignes et en colonnes. Des
logiciels d’O.C.R permettent de trier ces points pour «
lire » les caractères formés mais ils faut, pour cela tout de même bien savoir ce que l’on fait.
Les fichiers PDF tant de
Google que de la
B.N.F. contiennent souvent un avertissement ou une licence en
mode texte. Le
copier-coller est donc généralement faisable sur celles-ci. Puis, viennent les photocopies en mode image, le tout encapsulé dans un même fichier PDF que vous téléchargez. Il faut donc commencer par
extraire les images (photocopies). Pour les ouvrages anciens, c’est très souvent le
format TIFF CCITT groupe 4 à 300
points par pouce qui est utilisé. Certains logiciels extraient très bien ces images des PDFs (j’utilise pour ma part
ImageMagic mais je dois reconnaître qu’il faut quand même avoir une idée précise de ce à quoi on veut en venir.
Une fois les fichier TIFF extraits, il est très facilement possible de faire une reconnaissance de caractère dessus avec un logiciel idoine ; mais là, je dois reconnaître aussi que les résultats sont très différents en fonction de la typographie d’origine... Partir d’une photocopie d’un texte en typographie contemporaine, parfaitement rectiligne et sans bavures réussit en général à plus de quatre-vingt-dix pour cent. Pour des typographies plus anciennes (XVIIIe, voire XVIIe siècle), c’est souvent une autre histoire et cela demande, en conséquence, un nombre important de retouches puisque la reconnaissance ne réussit pas partout...
Si votre texte ne fait que trois pages, vous pouvez me l’envoyer par courriel ; ce n’est pas un traitement long. Mais si vous voulez faire cela de manière plus fréquente, cela vous demandera un apprentissage qui peut être bénéfique à autrui, à fortiori si vous remettez votre travail de transcription en ligne sur le web puisque les textes anciens sont évidemment libres de droit.
Bien à vous,
