Bibliographie du Monde Illustré, version brute

(cliquez ici pour revenir)

Processus

  1. Scan/photo hres → rép. des sources
    Les articles sont scannés ou photographiés en haute résolution et stockés dans $DATA\soc\genealogy\recherches\Fulgence Girard\textes\LMI-le monde illustré\HIRES\. Ils ne sont pas disponibles à la consultation. L’image scannée/photographiée s’appelle le matriciel. Étant donné que la conversion scan → BB → GR2 utilisent $PUBLIC, ces travaux ne doivent être faits que depuis un poste primaire (malbem ATOW).
  2. BB (interdit rouge) : nommage, création des segments dans le domaine web de mandao (sans détourage ni resample), création du BB (<IMG width=500 >)
    Pour être disponibles à la consultation : les matriciels reçoivent un nom normalisé et la page HTML pour matriciels est crée. Pour économiser l’espace sur pair, les matriciels BB sont mis sur $PUBLIC\genea\fulgence.girard\revues\lmi\. (dunwich.mine.nu). Nous fixons arbitrairement les <IMG width=500 > pour un affichage écran, l’article est disponible dans le bibliographie brute (mode BB). Les textes et images de cet articles et des voisins co-paginés sont mélangés ; les matriciels des textes ne sont pas ré-échantillonnés (pour aider l’OCR, sauf si trop gros).
  3. L’étape GR1 n’est plus utilisée. Les fichiers sont recadrés et ré-échantillonés pour une lecture écran, les attributs width des <IMG> sont suprimmés (ou ajustés à la valeur des JPG), l’article est barré de la biblio brute et disponible dans la section Le Monde Illustré de la page de FG (mode GR1). Les tailles recommandées sont : pour le texte : 400px/col et 600 px pour les illustrations (sauf double page : 800).
  4. GR2 (œil de poisson en bleu) : nettoyage, resample et renumérotation des segments avec <IMG width= ∼400 (texte) / 600 (illust.) / 800 (illust. db. p.) >
    Pour que la version JPG soit propre : les matriciels sont recadrés en segments, les distorsions sont corrigées. Les textes sont en mono-colonne. Une illustration par segment. On évite autant que possible de ré-échantillonner les textes (pour aider l’OCR), sauf si trop gros (c.à.d. > 550 px). Les illustrations sont ré-échantillonnées (600 ou 800 px si double page). Le matriciel H.-res (nettoyé) est enregistré sous le nom "noXXpYY_foo_bar-eZZ-hres.jpg" : sur web-FG pour les illust. et sur le rép. de recherche pour les textes le cas échéant. L’article est barrée de la biblio brute.
  5. TXT (marque OCR verte). Les textes sont saisis (mode TXT), la version GR2 est remplacée par la version TXT, mais sera conservée en archive (GR3, *_gr.html). Ces articles sont insérés dans la sélection d’articles. Les images sont nettoyées.
  6. Les TXT et leurs images sont copiés dans Wikisource (mode TXTw).

Articles en version brute

La liste ci-dessous comprend les articles normalisés en mode BB (non barrés) et GR1, GR2, TXT (barrés).
Légende


File created 17 août 2007, by Baptiste Marcel (voir page Contact). Dernière mise à jour le 09/08/2013 AD. Feedback is welcomed. If you enjoyed this page, please do not forget to visit my homepage and to request more information about this site.