Venise flashback : l’archéologie automatique

Nous avons mis des hommes dans l’espace. Nous envoyons maintenant des ordinateurs apprenants, des robots sémantiques, dans le passé.

Le magazine Nature publie un article sur la Venice Time Machine, déploiement complexe de logiciels et de processus de dépouillement et de recherche, à l’initiative de l’Ecole Polytechnique Fédérale de Lausanne (EPFL). Les historiens ne se tiennent plus (ils sont de leur propre aveu practically salivating), les Vénitiens ont le sentiment de voir leurs cimetières s’ouvrir, et les informaticiens jubilent.

Que se passe-t-il exactement ? On est dans une sorte de logique extractive culturelle. Ce n’est ni le pétrole, ni le bois, ni le minerai qui en fait l’objet, mais plus de mille ans d’archives vénitiennes : 300 pièces, 80 kilomètres d’étagères bourrées de registres, de cartes et de chroniques – une éponge aux proportions galactiques ayant absorbé le quotidien vénitien jour après jour pendant 200 lustres. On ne vient pas de les découvrir, évidemment, car elles sont là, ces archives, depuis toujours, à la basilique Santa Maria Gloriosa dei Frari, en pleine ville. Non, on les connaît et on ne les a jamais perdues de vue. Seulement, ce système d’information séculaire déborde sans conteste le petit périmètre de notre fenêtre cognitive : l’envergure et la complexité de cette masse d’information échappe à notre discernement et, jusqu’ici, nous n’en avons pas tiré grand chose.

Pour arriver à exhumer le passé et le faire revivre avec une clarté que nous n’avions jamais pu espérer, il a fallu faire converger des stratégies différentes. Cela va de la création de machines pour scanner facilement les documents à l’interprétation des textes numérisés, en passant par la reconnaissance de l’écriture et aussi de l’image, par l’assistance à la désambiguisation des données et, surtout, par un algorithme permettant d’établir un nombre astronomique de liens entre les faits recensés. C’est de l’indexation massive à plusieurs dimensions, soumise à une logique d’inférence distribuée qui rappelle les réseaux neuronaux.

Du point de vue des sciences humaines, la démarche s’inscrit de manière cohérente dans la dynamique générale en cours. Dans la deuxième moitié du XXème siècle, on a commencé à aborder la modélisation des comportements humains à l’aide des ordinateurs. Le projet peut-être le plus évident et le plus lisible était celui d’apprendre aux ordinateurs à comprendre la parole humaine et à lui répondre – ce qui supposait du même coup qu’ils aient une idée de ce dont on parle, autrement dit qu’ils aient une certaine connaissance générale du monde, ce qui n’était pas le moindre des enjeux dans cette recherche.

C’est un sujet passionnant aux multiples ramifications et aux incidences épistémologiques importantes, mais ce qui nous intéresse ici se résume à l’impasse dans laquelle cela nous a conduits*. Comme d’habitude, il y avait d’un côté les scientifiques et de l’autre les ingénieurs. L’objectif des premiers est de dégager des généralisations qui permettront de formuler des prédictions justes, celui des derniers est de faire marcher les choses comme on le souhaite, quelle que soit leur articulation sous-jacente. Pendant longtemps on a abordé le traitement automatique du langage en prenant comme point de départ différentes théories de la grammaire, pour mimer le fonctionnement humain – c’était la méthode scientifique. Depuis quelque temps, on s’est plutôt tourné vers des méthodes statistiques d’apprentissage machine, qui construisent des représentations abstraites qu’on n’arrive pas vraiment à extraire des mémoires cybernétiques, mais qui obtiennent des résultats très performants.

C’est le même principe qui est à l’œuvre aujourd’hui : Frédéric Kaplan de l’EPFL a développé sa pratique de l’intelligence artificielle dans le domaine de la reconnaissance automatique du langage. Sous sa direction, on a ici mis en œuvre des machines qu’on n’a pas du tout nourries des réalités du moyen-âge ni de la renaissance, sans parler du quattrocento, mais qu’on a équipées d’un gros moteur d’apprentissage statistique : une espèce de foreuse qu’on lâche en direction du passé et qui construit du sens au kilomètre, au fur et à mesure de sa progression dans les galeries du temps.

C’est un assez bel exemple de technologie productive, à mon avis. Et le fait que l’article cité paraisse dans les pages Web de Nature, pour ainsi dire la plus haute autorité dans le monde de la recherche scientifique, fait réfléchir – et évoque notamment le Mind and Nature de Bateson.

Bonne lecture – rappel : c’est , et pour la synthèse vidéo :

P.S. A propos de Venise, je recommande la lecture de L’amante senza fissa dimora (L’amant sans domicile fixe), de Fruttero & Lucentini, deux écrivains éclectiques et polyvalents aujourd’hui disparus. La langue magnifique (très bien traduite en général) et l’incomparable sens de la fiction de leurs romans à quatre mains leur survivront longtemps.

C’était l’impasse en matière d’automatisation, mais la linguistique scientifique a encore de beaux jours devant elle : c’est la voie royale pour comprendre nos mécanismes cognitifs en général, et en particulier nos stratégies de communication. (retour)

[visuel d’en-tête © nature.com]

Laisser un commentaire