Une visite à PGConf.DE 2025 et des discussions sur PostgreSQL dans le contexte des sciences de la vie

C’est toujours un plaisir d’assister aux événements Postgres, et la PGConf.DE 2025 à Berlin n’a pas fait exception. Cette année, l’événement a permis de renouer de vieilles amitiés et a offert un environnement ouvert et accueillant pour en nouer de nouvelles. Et, bien sûr, il y a eu des exposés passionnants!
Lors de la conférence, j’ai eu l’occasion de parler de Postgres dans le contexte des sciences de la vie (voir la section suivante). Dans l’ensemble, j’ai trouvé qu’il y avait une belle diversité de présentations : une sélection qui couvrait le cœur de Postgres, son écosystème et bien plus encore.
Je suis convaincu qu’à la fin de la conférence, la plupart des participants, sinon tous, sont repartis plus riches qu’ils n’étaient venus, d’une manière ou d’une autre.
Présentations
En amont de cet événement, j’ai eu l’honneur de voir l’une de mes conférences retenue. Son titre était : « Postgres et les sciences de la vie : des cellules aux étoiles" et il était organisé comme une méta-analyse / un hommage à l’extensibilité de Postgres et à ses diverses applications au monde naturel.
Afin de raconter au mieux cette histoire, j’ai présenté au public les cinq sujets suivants, de portée croissante :
- Cartographie neuronale avec une interface graphique compatible PostGIS
- Examen hydrologique des rivières avec l’extension PgHydro
- Méta-analyse de la biomasse des poissons avec Vanilla Postgres
- Tableau de bord de la COVID-19 avec l’extension Citus
- Classification par étoiles basée sur des forks de Postgres et des modifications d’extensions
J’ai apprécié la préparation et la présentation de cette conférence, qui a donné lieu à des échanges enrichissants. Deux points ont particulièrement retenu mon attention et me semblaient intéressants à aborder ici :
Quelles sont les trois technologies (outils/flux de travail) qui bénéficieraient le plus, en termes d’amélioration d’impact ou de facilité d’adoption, si leurs complexités étaient considérablement réduites/abstraites ?
Lors de ma présentation, j’ai affirmé que le cerveau était compatible avec l’ACID. Bien que je fasse principalement référence aux potentiels d’action des neurones, cette affirmation a été légitimement contestée.
1. Outils / flux de travail identifiés
1. Quelles sont les trois technologies (outils/flux de travail) qui bénéficieraient le plus, en termes d’amélioration d’impact ou de facilité d’adoption, si leurs complexités étaient considérablement réduites/abstraites ?
1. Vectorisation d’image
Dès le départ, j’ai pensé à la classification des images issues de scanner à résonance magnétique. Ce sujet est très discuté au sein de la communauté médicale, et de nombreuses startups se sont également lancées dans ce domaine. Personnellement, je pense qu’il y a en effet une dynamique pour améliorer l’accessibilité, mais qu’il existe encore une forte séparation entre le développeur et l’utilisateur final. Bien que je n’aie pas de réponse toute faite à ce stade, je vous conseillerais, pour commencer, de vous renseigner sur vecteur pg et postgresml. Compte tenu de l’intégration des vecteurs et de l’apprentissage automatique dans ce défi, j’envisagerais d’utiliser un service d’intégration d’images pour convertir la sortie IRM brute en un format compatible avec pgvector.
2. Gestion des données et contrôle des versions
En tant qu’ancien universitaire, je peux témoigner de l’omniprésence des feuilles de calcul classiques (le format .csv étant moins courant, mais toujours utilisé). De plus, les fichiers sont généralement stockés dans des répertoires locaux, sur un serveur privé ou dans une infrastructure partagée, mais avec une architecture de dossiers classique. On imagine aisément les frictions potentielles lorsque la conversation s’étend à plusieurs chercheurs de différents groupes. Si l’on ajoute à cela un taux de rotation naturellement élevé des étudiants, associé à une mentalité de « j’aime faire les choses à ma façon », on comprend l’importance des normes. Si les améliorations peuvent être abordées sous différents angles, je souhaiterais me concentrer sur la gestion des données et le contrôle des versions.
Des données bien ordonnées et une bonne hygiène organisationnelle sont des gages de réussite dans tout domaine d’études. Cependant, le suivi des modifications se limite le plus souvent, voire exclusivement, aux documents texte. Bien que cela puisse surprendre le lecteur, le terme « dépôt de code » ne fait pas partie du vocabulaire universitaire courant. Même le terme « Linux » évoque un certain « mysterium tremendum et fascinans » (Otto, 1923). La sécurité des données étant une priorité, des options d’auto-hébergement telles que Forgejo pourraient être très utiles aux scientifiques du vivant, notamment en cas de réserves quant au stockage des données en ligne. Au lieu d’avoir plusieurs brouillons de fichiers, par exemple « draft-1_final », « draft_final_final », etc., des outils comme Forgejo permettent de suivre l’avancement des documents et d’offrir aux chercheurs une plus grande transparence sur les modifications passées (ce qui facilite la collaboration entre les équipes).
3. Conformité et audit
La confiance est un sujet central dans tout domaine de recherche, et dans certaines circonstances, l’audit (ou toute autre forme de preuve de travail) peut occuper une place centrale. Dans le cas présent, Postgres et l’une de ses extensions associées, pgAudit, peuvent constituer une avancée significative vers la conformité. En raison des capacités de Postgres, ce service peut parfois être perçu comme intimidant et réservé aux grands projets. Je pense qu’il pourrait devenir très répandu grâce à la publication d’un guide du type « Postgres pour les petits projets ».
Découverte et exposition
Au final, personne n’utilisera volontairement quelque chose sans en connaître l’existence. C’est pourquoi la découvrabilité est l’un des concepts les plus fondamentaux lorsqu’on parle d’impact et d’adoptabilité. Il appartient aux mainteneurs, aux contributeurs et aux communautés derrière ces outils open source de partager leurs avancées sur plusieurs plateformes et dans différentes conférences. Honnêtement, le moyen le plus simple d’aider est d’en parler et de mettre la main à la pâte.
2. Le cerveau et la conformité à l’ACID
2. Lors de ma conférence, j’ai affirmé que le cerveau était compatible avec l’ACID. Bien que je fasse principalement référence aux potentiels d’action des neurones, cette affirmation a été contestée à juste titre.
Ce fut une autre discussion passionnante après la présentation, et même si elle mériterait un article de blog dédié, je souhaitais partager rapidement mes réflexions. Dans l’une de mes diapositives, j’ai affirmé que le cerveau est compatible avec ACID, du moins dans le sens où les transactions sont tout ou rien. Les neurones, un type cellulaire courant dans le cerveau, ont la caractéristique de recevoir des signaux qui se compilent jusqu’à atteindre un seuil, après quoi le neurone envoie son propre signal, ou « se déclenche ». C’est une simplification grossière : voici un petit lien Wikipédia pour plus d’informations.
Cependant, des auditeurs perspicaces ont remarqué que le cerveau est complexe et comporte différentes régions. Il peut y avoir des pertes de mémoire et des activités pouvant altérer le fonctionnement et la conscience. Cependant, dans quelle mesure les influences externes sur le cerveau sont-elles liées à un système de base de données ? Si une base de données Postgres est corrompue, elle n’est plus compatible ACID, contrairement à ce qu’elle était auparavant. Tous ces points sont à la fois valables et intéressants. Il sera intéressant d’y réfléchir et de rédiger une réponse plus formelle.
Réflexions finales
En résumé, ce fut une excellente conférence. Je sais que je parle au nom de tous les participants en remerciant tous ceux qui y ont contribué, qu’ils soient membres du personnel, bénévoles, intervenants ou autres.
Références
Foote, K. J., Grant, J. W. A., & Biron, P. M. (2024). A global dataset of salmonid biomass in streams. Scientific data, 11(1), 1172. https://doi.org/10.1038/s41597-024-04026-0
Giordano, C., & Hadjibagheri, P. (2021, December 11). UK COVID-19 dashboard built using Postgres and Citus for millions of users. Microsoft TechCommunity Blog. https://techcommunity.microsoft.com/t5/azure-database-for-postgresql/uk-covid-19-dashboard-built-using-postgres-and-citus-for/ba-p/3039052
Kazimiers, T., et al. (2021). CATMAID (Collaborative Annotation Toolkit for Massive Amounts of Image Data) [Computer software]. GitHub. https://github.com/catmaid/CATMAID
Krefl, D., & Nienartowicz, K. (2025, January 17). Harnessing Postgres and HPC for petabyte-scale variable star classification in astronomy [Conference presentation]. CERN PGDay 2025, Geneva, Switzerland. https://indico.cern.ch/event/1336647/contributions/5660229/
Otto, R. (1923). The idea of the holy: An inquiry into the non-rational factor in the idea of the divine and its relation to the rational (J. W. Harvey, Trans.). Oxford University Press. (Original work published 1917)
Teixeira, A. de A., & PgHydro Project. (2022). pghydro (Version 6.6) [Computer software]. GitHub. https://github.com/pghydro/pghydro
Wikipedia contributors. (2025, May 16). Action potential. Wikipedia, The Free Encyclopedia. https://en.wikipedia.org/wiki/Action_potential