Daniel Lemire | Université TÉLUQ - Formation à distance

Daniel Lemire est professeur titulaire en informatique. Il s'intéresse particulièrement à la performance du logiciel et aux techniques d'indexation en science des données. Il aime poser un regard critique sur l'utilisation des technologies.

Daniel Lemire est parmi les 2 % de scientifiques les plus cités au monde (classement de l'Université Stanford, 2025). Il fait partie des 0,0006 % de programmeurs les plus suivis au monde sur GitHub ; GitHub compte plus de 100 millions de développeurs.

Une grande partie de nos progrès technologiques récents, tous domaines confondus, repose sur des logiciels. Adoptés par les géants de l’informatique, les travaux du professeur Lemire permettant des gains tangibles remarquables, dont voici quelques exemples :

Les disques et réseaux sont aujourd'hui capables de transmettre des données è des gigaoctets par seconde. Malheureusement, nos logiciels limitent souvent artificiellement la performance à des mégaoctets par seconde. C'est notamment le cas lorsque les services web échangent des milliards de données quotidiennement. Le professeur Lemire a mis au point la première bibliothèque logicielle appelée le parseur simdjson, capable de traiter les données issues des services web (JSON) à des gigaoctets par seconde. Ce parseur est aujourd’hui utilisé dans des systèmes importants tels que Facebook Velox, et par de grandes entreprises, dont Google, Shopify et Intel. Il fait également partie d’un outil fondamental en informatique (Node.js), où il aide à charger les fichiers de configuration plus rapidement. À ce jour, le parseur simdjson demeure le plus rapide au monde pour le traitement de documents JSON. Cette découverte à fort impact lui a valu le Prix d'excellence 2020 de l'Université du Québec pour la réussite en recherche, tous domaines confondus, et ce, dans une population de plus de 3500 chercheuses et chercheurs. Les résultats de ses travaux sont utilisés pour accélérer l'analyse syntaxique dans le navigateur Google Chrome ainsi qu'au sein du navigateur Safari. L'article On-demand JSON : A better way to parse documents? a été l'article le plus lu des 5 dernières années chez Software : Practice and Experience (2024).
Le professeur Lemire a conçu Roaring Bitmaps, lequel est devenu une norme et fait partie d’innombrables systèmes importants, dont Google, pour l’analyse des données au sein de YouTube, ainsi que pour des entreprises telles qu’Uber, Microsoft et Wikipédia. Le travail du professeur Lemire sur les bitmaps Roaring a été conçu comme une solution de rechange efficace à leur ancien format EWAH qui reste largement utilisé par des millions de programmeurs chaque jour, ouvrant d’autant la portée de cette découverte.
Les nombres sont généralement stockés sur disques ou échangés sur un réseau sous forme de chaînes de caractères, convertis en une forme binaire standard par les logiciels lors des opérations. Cette conversion représente un problème resté pratiquement intact dans la littérature scientifique pendant près de 30 ans. Grâce à un nouvel algorithme, le professeur Lemire est parvenu à multiplier la vitesse de lecture des nombres au sein des systèmes logiciels par quatre. L’algorithme a été adopté par plusieurs langages de programmation (C#, Go et Rust), la bibliothèque C++ standard sous Linux, et plusieurs systèmes importants dont MySQL, Blender, et les navigateurs web Safari, Chrome et Edge. En accélérant une opération fondamentale pour les systèmes logiciels, cet algorithme est devenu omniprésent dans nos outils informatiques quotidiens.
Toujours à propos des opérations de chaînes de caractères, l’équipe du professeur Lemire a aussi produit la bibliothèque logicielle simdutf qui permet de transformer et valider les chaînes de caractères de six à dix fois plus rapidement que les méthodes conventionnelles. Cette bibliothèque inclut plusieurs nouveaux algorithmes et fait partie du populaire moteur d’exécution JavaScript Node.js. À son tour, Node.js est utilisé par un large éventail de systèmes, notamment pour créer des applications web chez Netflix, Uber, LinkedIn, Walmart, et c’est le moteur principal d’importants systèmes bureautiques, tels que Slack, Discord et Microsoft Teams. Son algorithme de validation des chaînes Unicode est utilisé par plusieurs systèmes importants dont l'interpréteur PHP.

Le professeur Lemire a aussi apporté un large éventail de contributions aux systèmes informatiques fondamentaux. Il a produit, par exemple, un nouvel algorithme utilisé par le noyau Linux et par les bibliothèques standard de plusieurs langages de programmation (GNU libstdc++, bibliothèque standard C++ de Microsoft, etc.), utilisés à leur tour pour les opérations des logiciels dans une très grande variété de systèmes. Il a battu des records de vitesse et d’efficacité lors du décodage et de l’encodage des données binaires en texte (base64), processus impliqué notamment dans la norme de messagerie électronique, allant dans certains cas à des vitesses 20 fois plus rapides qu’une approche conventionnelle. Ces algorithmes font désormais partie des technologies populaires pour le développement web.

L’impact de ses travaux à l’échelle internationale se démontre aussi par le fait que ses algorithmes et outils informatiques sont cités dans 37 brevets détenus par des entreprises parmi lesquelles on trouve Microsoft, LinkedIn, Oracle et Fujitsu Limited.
En outre, le professeur Lemire se démarque par ses travaux en mobilisation des connaissances et ses qualités de communicateur. Il tient depuis 2004 un blogue en informatique dans lequel il publie plusieurs billets par mois. Ce dernier est suivi par plus de 12 500 inscrits de partout à travers le monde. Le blogue compte plus de 2600 billets et près de 16 000 commentaires. Ses billets sont souvent commentés, lui permettant d’engager une conversation avec la communauté internationale. Ils sont cités par d’autres blogues de références et reconnus par la Silicon Valley, augmentant d’autant son rayonnement. Ce blogue est cité dans le code source de plusieurs systèmes informatiques importants (Google, Oracle, Meta, etc.).
Le professeur Lemire participe régulièrement, à titre de membre de comités de programme, à l’organisation de conférences internationales de premier plan en informatique (Ex. : ACM CIKM, WWW, ACM RecSys, etc.). Comme conférencier, il s’est vu décerner la mention de conférence la plus appréciée de la QCon2019, laquelle a été visionnée plus de 75 000 fois sur YouTube, jusqu’à maintenant.
Il est aussi éditeur de la revue Software: Practice and Experience depuis 2020. Fondée en 1971, cette revue est l’une des plus prestigieuses en informatique et se place parmi les 20 % des revues du domaine les plus lues et citées, avec un taux de citation en forte hausse depuis les cinq dernières années. En plus de participer à de nombreux comités de sélection des principaux organismes de financement de la recherche au Québec et au Canada, il a été coprésident du comité des subventions à la découverte en informatique du CRSNG en 2020-2021.

Le professeur Lemire a maintenu une moyenne de plus de quatre publications par année au cours des dix dernières années, dont près de la moitié sont le résultat d'une collaboration internationale. Ses publications, citées plus de 5000 fois par ses pairs, débordent le domaine de l'informatique, avec des applications en sciences sociales, en psychologie et en sciences de la Terre. Ses travaux de recherche sont par ailleurs cités dans plusieurs médias sociaux. Fervent défenseur du logiciel libre et de la démocratisation du savoir, le professeur Lemire a largement publié le résultat de ses travaux en libre accès (open source), incluant ses outils informatiques, les rendant accessibles gratuitement à la communauté informatique internationale.

En résumé, le professeur Lemire a contribué à la formation de nouveaux chercheurs aux profils diversifiés qui œuvrent toujours en recherche. Il a une influence élargie plus que remarquable en tant que vulgarisateur scientifique, par son approche de science ouverte et ses nombreuses actions de transfert de connaissance.

Présentation des principaux cours offerts par Daniel Lemire (premier cycle)

INF 1220 : Introduction à la programmation

Le cours est en accès libre: https://lemire.github.io/inf1220-hugo/. Vous pouvez prendre connaissance de la totalité du cours en ligne.

INF 2007 : Programmation avancée

INF 6450 : gestion de l'information avec XML

Le cours est en accès libre: https://lemire.github.io/inf6450-hugo/. Vous pouvez prendre connaissance de la totalité du cours en ligne.

INF 6460 : recherche d'informations

INF 9004 : Entrepôts de données

INF 2020 : programmation en Python

Conférences (YouTube)

NodeConf EU 2023

BID 2023

SPIRE 2021

Go Systems (San Francisco, 2020)

Performance Summmit III (Seattle, 2020)

QCon San Francisco 2019 (la conférence la plus appréciée par les participants)

Spark Summit East 2017

Balados et entrevues

Parsing a 5GB JSON file (Coding with Lewis, 2025)

On SIMD, cache and CPU internals with the expert Daniel Lemire! (Wookash Podcast, 2025)

L'intelligence artificielle à la TÉLUQ (Radio-Canada, 2024)

Laboratoire

Nous avons la chance d'avoir un laboratoire pleinement équipé avec un technicien dédié à nos travaux. Nous avons une ferme de serveurs utilisés partout dans le monde pour étudier la performance du lociel (par ex. par des chercheurs comme Agner Fog). Certaines de nos machines ont les spécifications suivantes:

Microarchitecture Icelake : Intel(R) Xeon(R) Gold 6338 CPU @ 2.00GHz
Microarchitecture Haswell : Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz
Microarchitecture Knights Landing : Intel(R) Xeon Phi(TM) CPU 7210 @ 1.30GHz (64 coeurs)
Microarchitecture Skylake : Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz
Microarchitecture Skylake-X : Intel(R) Xeon(R) W-2104 CPU @ 3.20GHz
IBM POWER9 2.2 GHz, 4-core
Microarchitecture Cannonlake: Intel Core i3-8121U CPU @2.20GHz
Microarchitecture Skylark (ARMv8): Ampere eMAG CPU 32 coeurs @ 3.3 GHz

Le laboratoire comprend aussi plusieurs stations de travail. Il y a de l'espace dans notre laboratoire pour explorer la réalité virtuelle comme outil en science des données.

Étudiants et stagiaires

Nous recrutons des étudiants et stagiaires post-doctoraux pour notre équipe. Si vous adorez concevoir du logiciel véloce, écrivez-nous! Si vous disposez d'un profil GitHub impressionnant, ce sera un atout en votre faveur. .

Si vous souhaitez poursuivre une maîtrise en technologie de l'information en technologie de l'information à temps plein sous la direction de Daniel Lemire à Montréal, nous recevons des candidatures pour les bourses d’études supérieures du CRSNG. Vous devez avoir un solide dossier universitaire pour postuler. Vous devez aussi être citoyen canadien ou résident permanent du Canada. La date limite pour postuler est le premier décembre de chaque année. Vous devez prévoir du temps pour préparer votre demande. Nous recevons des candidatures à tous les ans.

Si vous êtes intéressés par un doctorat en informatique cognitive à temps plein sous la direction de Daniel Lemire à Montréal, nous recevons des candidatures pour les bourses d’études supérieures du CRSNG. Vous devez avoir un solide dossier universitaire pour postuler. Vous devez aussi être citoyen canadien ou résident permanent du Canada. La date limite pour postuler est le premier novembre de chaque année. Vous devez prévoir du temps pour préparer votre demande. Nous recevons des candidatures à tous les ans.

Par ailleurs, tous les étudiants qui complètent une maîtrise en technologie de l'information avec mémoire ont droit à une bourse, automatiquement. Tous les étudiants qui progressent au sein du doctorat en informatique cognitive ont droit à des bourses automatiques. L'inscription au doctorat implique l'exonération des frais de scolarité pour étudiants étrangers.

Daniel Lemire supervise régulièrement des étudiants aux trois cycles universitaires. Il travaille principalement avec des étudiants qui adorent programmer et qui préfèrent les environnements open source (par ex., Linux). Plusieurs de ses étudiants aux cycles supérieurs contribuent à des projets open source sur des sites comme GitHub.

Il a récemment dirigé ou co-dirigé les thèses de doctorat des étudiants suivants :

Fatma Miladi, doctorat en informatique cognitive (diplômée en 2025);
François Lewis, doctorat en informatique cognitive (diplômé en 2024);
Pierre Marie Ntang, doctorat en informatique cognitive (diplômé en 2023);
Gary Germeil, doctorat en informatique cognitive (diplômé en 2022);
Tarek Khei, doctorat en informatique cognitive (diplômé en 2020);
Xueping Dai, science de l'environnement (diplômé en 2019);
Erick Aokou Koffi, doctorat en informatique cognitive (diplômé en 2018);
Badis Merdaoui, doctorat en informatique cognitive (diplômé en 2017);
Jing Li, doctorat en informatique (diplômée en 2016);
Samy Chambi, doctorat en informatique (diplômé en 2016).

Il a récemment dirigé les mémoires de maîtrise suivants.

Mathon, Nicolas (2024). Évaluation d’Apache Ozone et de son intégration du protocole de consensus RAFT avec la librairie Apache Ratis afin d'obtenir un système distribué fiable et cohérent
Dionne, Jean Philippe (2024). Générateur de textes aléatoires automatiquement lemmatisés
Courcot, Blandine (2023). Suivi et modélisation du potentiel hydrique du sol dans un contexte de stress climatiques : le cas d'une érablière à bouleau jaune à la marge nordique de sa distribution.
Guévin-Kamena, Roger (2023). Réglage fin par ensemble convergent de divers modèles transformers pour l’analyse du sentiment
Verret, Carl (2022). Analyse d'un nouvel algorithme et conception d'une librairie en C# permettant la conversion des nombres décimaux en nombres à virgule flottante
Grenier, Jean-François (2022). Segmentation sémantique par réseaux neuronaux des espèces indésirables dans la culture du bleuet sauvage
Lopez Chavez, Marina Adriana (2022). Proposition d’une plateforme de gestion des données de recherche et son adoption par les chercheurs en environnement et informatique dans le contexte de la recherche en foresterie au Québec
Croteau, Carine (2021). Recherche et analyse de solutions performantes pour le traitement de fichiers JSON dans un langage de haut niveau

Trois de ses étudiants à la maîtrise se sont mérités la médaille d'or du gouverneur général (Verret en 2022, Courcot en 2023, Dionne en 2025). Plusieurs de ses étudiants occupent des postes importants: par ex., Maxime Boisvert (M.Sc., 2017) est Production Engineering Manager chez Shopify, Jérémie Piotte est Senior Manager (Machine Learning Engineering) chez Unity Technologies, Shany Carle (M.Sc., 2017) et and Carine Croteau (M.Sc., 2020 sont professeurs d'informatique au cégep de Victoriaville, Shira Smith est ingénieure chez Discord en Californie.

Les projets de recherche majeurs que je propose en ce moment sont organisées selon plusieurs thèmes:

Traitement des documents JSON. Nous avons conçu la librairie de traitement des documents JSON la plus rapidement au monde : simdjson. Elle est utilisée par Facebook, Shopify, Microsoft, etc.

Les programmeurs analysent souvent de grands flux de documents JSON. Bien que nous ayons une esquisse de la façon de faire un tel travail avec notre bibliothèque simdjson, la construction réelle et l'évaluation scientifique du problème ferait un bon mémoire de maîtrise.
Notre bibliothèque simdjson rapide a des performances d'analyse de pointe, mais elle n'offre pas de moyen pratique pour sérialiser et désérialiser les structures de données (par exemple, une structure de données composée de trois chaînes de caractères et d'un tableau d'entiers). Nous avons esquissé la façon dont cela pourrait être fait à grande vitesse en C++, mais le construire réellement et évaluer le résultat serait un bonne mémoire de maîtrise.
Pour interroger les documents JSON comme une base de données, JSON Path offre un ensemble de requêtes riche. En utilisant notre fondation simdjson, nous pensons que nous pouvons fournir un moteur de requête JSON-Path qui devrait être au moins 10 fois plus rapide que les logiciels existants prêts pour la production. Il s'agit d'un problème profond qui servira de sujet de doctorat ou de maîtrise.

Traitement des chaînes Unicode. Nous avons conçu la librairie de traitement des chaînes de caractères Unicode la plus rapidement au monde : simdutf. Elle est utilisée par Node.js, Bun, Microsoft Teams, Slack, etc.

En C#, il est possible d'utiliser des instructions SIMD pour plus de vitesse. En utilisant un algorithme dédié, il devrait être possible d'accélérer la validation des chaînes de caractères Unicode (par ex., UTF-8) en C# avec les instructions SIMD (niveau bac. ou maîtrise).
Au sein de la librarie simdutf, nos fonctions de transcodage ne prennent pas actuellement en charge le remplacement rapide lorsqu'un caractère incorrect est trouvé. Bien qu'il s'agisse d'un concept simple, la conception d'une telle fonctionnalité à des gigaoctets par seconde devrait s'avérer intéressante (niveau bac. ou maîtrise).
En s'appuyant sur nos algorithmes accélérés Unicode de la bibliothèque simdutf, nous devrions chercher à construire une extension riche supportant le regroupement, la normalisation, la recherche, le tri et la collation des graphèmes Unicode qui battent tous les records (niveau maîtrise ou doctorat)

Traitement des URL. Nous avons conçu la librairie de traitement des URL respectant la norme WHATWG la plus rapide au monde : ada. Elle est utilisée par Node.js, Microsoft Teams, Slack, etc.

Les développeurs Web s'appuient généralement sur les normes du WHATWG (URL, WebSockets, Fetch, Streams) telles qu'elles sont mises en œuvre dans des systèmes tels que Node.js. Nous construisons actuellement un analyseur d'URL qui bat tous les records. Cependant, il reste encore beaucoup à faire : par exemple, l'analyse vectorielle et l'encodage des données encodées en pourcentage, la normalisation et la validation Unicode vectorisées, l'analyse et la validation rapides des URL, etc. L'amélioration des performances d'analyse d'URL constituerait un bon projet de maîtrise.

Les index bitmap. Les index bitmap Roaring que nous avons développé sont utilisées par plusieurs systèmes majeurs tels que Apache Lucene et des systèmes dérivés comme Solr et Elasticsearch, Metamarkets' Druid, LinkedIn Pinot, Netflix Atlas, Apache Spark, OpenSearchServer, Cloud Torrent, Whoosh, InfluxDB, Pilosa, Bleve, Microsoft Visual Studio Team Services (VSTS), et Apache Kylin d'eBay. La bibliothèque CRoaring est utilisée dans plusieurs systèmes tels que Apache Doris, StarRocks. Le moteur SQL de YouTube, Google Procella, utilise les bitmaps de Roaring pour l'indexation.

Intel et AMD fournissent de nouveaux jeux d'instructions rapides pour le traitement vectorisé (AVX-512). Nous disposons d'un support AVX-512 dans notre bibliothèque populaire Roaring Bitmap en C/C++. Un sujet idéal pour une thèse de maîtrise serait l'extension de ce support pour fournir des gains de performance importants dans le monde réel.

Formaliser l’utilisation de l’intelligence artificielle générative dans le processus de conception des logiciels performants. Bien qu’il y ait plusieurs travaux sur l’intersection entre le génie logiciel et l’intelligence artificielle générative, et bien que nous utilisions cette forme d’intelligence artificielle dans nos travaux depuis son émergence, notre compréhension demeure superficielle. Il n’existe pas encore de méthodes et d’outils permettant d’optimiser systématiquement et rigoureusement nos logiciels avec l’intelligence artificielle générative. À moyen terme, nous souhaitons développer un outil qui permet de conseiller les programmeurs afin que ceux-ci puissent éviter les séquences de code informatique inefficaces. Nous voulons aussi entraîner des modèles afin que ceux-ci génèrent du code plus efficace en tenant compte du contexte.

Quantifier l'utilisation énergétique des nouvelles techniques d'optimisation et proposer des méthodes pour atteindre des performances élevées tout en minimisant la consommation d'énergie. Nous savons que plusieurs de nos techniques ont permis de réduire la consommation d’énergie et plusieurs autres auteurs ont traité ce sujet, mais il demeure sous-exploré. À terme, nous allons développer des approches innovantes pour multiplier l’efficacité énergétique de plusieurs systèmes importants. Réduire la consommation énergétique de nos serveurs informatiques est un enjeu environnemental et économique. Certains experts estiment que l'informatique absorbera 11 % de l'énergie mondiale d'ici à 2030.

Génération de données formattées à des gigaoctets par seconde. Nos travaux récents sont caractérisés par l’analyse (« la consommation ») des données. Cependant, nous avons peu exploré la contrepartie, soit la production efficace des données (JSON, nombres formattés, etc.). Nous anticipons pouvoir multiplier l’efficacité de certaines fonctions importantes.

Si un de ces thèmes vous intéresse, veuillez me joindre. J'ai aussi d'autres projets émergents dans le domaine de la performance du logiciel.

Livres

Java pas à pas
Programmation avec Python: des jeux au Web
La science des données: Théorie et applications avec R et Python
Maîtriser la programmation: Des tests à la performance en Go
Mastering Programming: From Testing to Performance in Go

Formation

Postdoctorat (Institut de génie biomédical)
Doctorat en mathématiques de l’ingénieur (Université de Montréal et École Polytechnique)
Maîtrise en mathématiques (University of Toronto)
Baccalauréat en mathématique (University of Toronto), avec mention «High Distinction»

Champs d'expertise

Performance du logiciel
Vectorisation (SIMD)
Technologies Web: Node.js, etc.
IA générative
Science des données
Ingénierie des données
Indexation des données

Enseignement

Responsable des programmes d'études

Responsable des cours

Cours en préparation

INF 1424 - Projet de développement logiciel en informatique mobile
INF 4450 - Programmation orientée-données

Présentation des principaux cours offerts par Daniel Lemire (premier cycle)

INF 1220 : Introduction à la programmation

Le cours est en accès libre: https://lemire.github.io/inf1220-hugo/. Vous pouvez prendre connaissance de la totalité du cours en ligne.

INF 2007 : Programmation avancée

INF 6450 : gestion de l'information avec XML

INF 6460 : recherche d'informations

INF 9004 : Entrepôts de données

INF 2020 : programmation en Python

Projets de recherche

Programme de recherche

Nous cherchons à accélérer les techniques d'indexation, soit au sein des moteurs de recherche ou des bases de données relationnelles. Dans le cadre de ces travaux, on exploite les développements récents au sein des processeurs courants. En particulier, nous cherchons à bénéficier pleinement de la vectorisation de ces processeurs. Un aspect important de cette recherche est la compression des index, qu'ils s'agisse d'index inversés, d'arbre B ou d'index bitmaps. L'objectif étant de faire en sorte que les index puissent résider en mémoire le plus possible. On souhaite compresser et décompresser les données à très grande vitesse en mémoire. On souhaite aussi grandement accélérer les opérations courantes comme l'intersection ou l'union.

Subventions actuelles ou récentes

Data Processing at Gigabytes Per Second (Subvention à la découverte du CRSNG, 2024-2030): 145,000$
Développement de solutions innovantes et adaptatives dans le domaine de la formation numérique à distance, en mettant en œuvre des technologies inhérentes à l'intelligence artificielle pour améliorer l'expérience d'apprentissage des apprenants (Subvention de l'AUF, 2024-2025): 20,000 euros
SPAR Lab: a Research Laboratory To Develop and Assess Smart Process Applications (Fonds d’innovation avec Hafedh Mili & Kim L Lavoie [responsables], 2020): 720,000$
Programme stratégique du RQRD sur l’intelligence artificielle (2020-2021) avec Isabelle Savard: 45,000$
Un environnement numérique SPÉCIAL pour favoriser l'engagement de l'apprenant et optimiser la collaboration interprofessionnelle (2021-2025) avec Isabelle Savard: 74 988 $
FRQNT équipe (2018-2021) avec Li Zhen Cheng: 162,000$
Faster Compressed Indexes On Next Generation Hardware (Subvention à la découverte du CRSNG, 2017-2024) : 294,000$
Faster Compressed Indexes On Next Generation Hardware (Supplément d'accélération du CRSNG, 2017-2024) : 120,000$
Adapting forests to global change through high-tech field monitoring, transplantation experiments and simulation models (Fonds des leaders avec N. Bélanger [responsable] et E. Filotas, 2016): 800,000$

Publications et communications

Articles de revues avec comité de lecture

Champagne Gareau, Jaël et Lemire, Daniel (2026). Converting binary floating-point numbers to shortest decimal strings: An experimental review. Software: Practice and Experience, 56 (4). 10.1002/spe.70056

Champagne Gareau, Jaël et Lemire, Daniel ORCID: https://orcid.org/0000-0003-3306-6922 (sous presse). Converting an integer to a decimal string in under two nanoseconds. Software: Practice and Experience.

Savard, Isabelle, Léveillée, Anna-Kim, Dellazizzo, Laura, Latulippe, Karine, Plante, Patrick, Angulo Mendoza, Gustavo Adolfo, Roy, Jean-Sébastien et Lemire, Daniel (2026). Parcours d’apprentissage en santé : orchestrer les ressources en accès libre validées et les technologies d’intelligence artificielle au sein d’un environnement numérique SPÉCIAL. Médiations et médiatisations (23), 165–178. 10.52358/mm.vi23.504

Clausecker, Robert, Lemire, Daniel et Schintke, Florian (sous presse). Faster Positional-Population Counts for AVX2, AVX-512, and ASIMD. Concurrency and Computation: Practice and Experience, 37 (27-28). 10.1002/cpe.70435

Lewis, François, Plante, Patrick et Lemire, Daniel (2025). Pertinence d'une composante sérieuse personnalisée dans un jeu vidéo d'action consacré à la rééducation en lecture de jeunes élèves présentant des symptômes dyslexiques. Médiations et médiatisations (21), 108-130. 10.52358/mm.vi21.449

Koekkoek, Jeroen et Lemire, Daniel (2025). Parsing Millions of DNS Records per Second. Software: Practice and Experience, 55 (4). 10.1002/spe.3396

Lemire, Daniel (sous presse). Scanning HTML at Tens of Gigabytes per Second on ARM Processors. Software: Practice and Experience.

Brackett-Rozinsky, Nevin et Lemire, Daniel (2025). Batched Ranged Random Integer Generation. Software: Practice and Experience, 55 (1). 10.1002/spe.3369

Courcot, Blandine, Lemire, Daniel et Bélanger, Nicolas (2024). Dynamics of soil water potential as a function of stand types in a temperate forest: Emphasis on flash droughts. Geoderma Regional, 38. 10.1016/j.geodrs.2024.e00850

Keiser, John et Lemire, Daniel (2024). On-Demand JSON: A Better Way to Parse Documents?. Software: Practice and Experience, 54 (6). 10.1002/spe.3313

Nizipli, Yagiz et Lemire, Daniel (2024). Parsing Millions of URLs per Second. Software: Practice and Experience, 54 (5). 10.1002/spe.3296

Lemire, Daniel (2024). Exact Short Products From Truncated Multipliers. Computer Journal, 67 (4). 10.1093/comjnl/bxad077

Clausecker, Robert et Lemire, Daniel (2023). Transcoding Unicode Characters with AVX-512 Instructions. Software: Practice and Experience, 53 (12). 10.1002/spe.3261

Mushtak, Noble et Lemire, Daniel (2023). Fast Number Parsing Without Fallback. Software: Practice and Experience, 53 (7), 1467-1471. 10.1002/spe.3198

Graf, Thomas Mueller et Lemire, Daniel (2022). Binary Fuse Filters: Fast and Smaller Than Xor Filters. Journal of Experimental Algorithmics, 27. 10.1145/3510449

Humeau, Tom, Savard, Isabelle, Lemire, Daniel, Dionne, Pierre-Olivier, Angulo Mendoza, Gustavo Adolfo, Plante, Patrick, Pinard, Anne Marie et Roy, Jean-Sébastien (2022). FORCES 3 : Exploitation à des fins pédagogiques des données d’un portail d’apprentissage de l’autogestion de la douleur. Développement d’une architecture de collecte et d’analyse de données et d’un module de suivi du développement des compétences. Médiations et médiatisations (12), 74-97. 10.52358/mm.vi12.287

Lemire, Daniel et Muła, Wojciech (2022). Transcoding Billions of Unicode Characters per Second with SIMD Instructions. Software: Practice and Experience, 52 (2).

Humeau, Tom, Savard, Isabelle, Dionne, Pierre-Olivier, Angulo-Mendoza, Gustavo, Plante, Patrick, Pinard, Anne Marie et Lemire, Daniel (2022). FORCES 3 : Exploitation à des fins pédagogiques des données d’un portail d’apprentissage de l’autogestion de la douleur. Développement d’une architecture de collecte et d’analyse de données et d’un module de suivi du développement des compétences. Médiations & médiatisations (12), 74-97. 10.52358/mm.vi12.287

Klarqvist, Marcus D. R., Muła, Wojciech et Lemire, Daniel (2021). Efficient Computation of Positional Population Counts Using SIMD Instructions. Concurrency and Computation: Practice and Experience, 33 (17). 10.1002/cpe.6304

Lemire, Daniel, Bartlett, Colin et Kaser, Owen (2021). Integer Division by Constants: Optimal Bounds. Heliyon, 7 (6). 10.1016/j.heliyon.2021.e07442

Keiser, John et Lemire, Daniel (2021). Validating UTF-8 In Less Than One Instruction Per Byte. Software: Practice and Experience, 51 (5), 950-964. 10.1002/spe.2920

Lemire, Daniel (2021). Number Parsing at a Gigabyte per Second. Software: Practice and Experience, 51 (8). 10.1002/spe.2984

Lewis, François, Plante, Patrick et Lemire, Daniel (2021). Pertinence, efficacité et principes pédagogiques de la réalité virtuelle et augmentée en contexte scolaire : une revue de littérature. Médiations & médiatisations (5), 11-27.

Graf, Thomas Mueller et Lemire, Daniel (2020). Xor Filters: Faster and Smaller Than Bloom and Cuckoo Filters. Journal of Experimental Algorithmics, 25 (1). 10.1145/3376122

Muła, Wojciech et Lemire, Daniel (2020). Base64 encoding and decoding at almost the speed of a memory copy. Software: Practice and Experience, 50 (2), 89-97. 10.1002/spe.2777

Lemire, Daniel, Kaser, Owen et Kurz, Nathan (2019). Faster Remainder by Direct Computation: Applications to Compilers and Software Libraries. Software: Practice and Experience, 49 (6), 953-970. 10.1002/spe.2689

Dai, Xueping, Cheng, Li Zhen, Mareschal, Jean-Claude, Lemire, Daniel et Liu, Chong (2019). New method for denoising borehole transient electromagnetic data with discrete wavelet transform. Journal of Applied Geophysics, 168, 41-48. 10.1016/j.jappgeo.2019.05.009

Lemire, Daniel (2019). Fast Random Integer Generation in an Interval. ACM Transactions on Modeling and Computer Simulation, 29 (1). 10.1145/3230636

Lemire, Daniel et O'Neill, Melissa (2019). Xorshift1024*, Xorshift1024+, Xorshift128+ and Xoroshiro128+ Fail Statistical Tests for Linearity. Computational and Applied Mathematics, 350, 139-142. 10.1016/j.cam.2018.10.019

Langdale, Geoff et Lemire, Daniel (2019). Parsing Gigabytes of JSON per Second. VLDB Journal, 28 (6). 10.1007/s00778-019-00578-5

Muła, Wojciech et Lemire, Daniel (2018). Faster Base64 Encoding and Decoding Using AVX2 Instructions. ACM Transactions on the Web, 12 (3). 10.1145/3132709

Li, Jing, Yan, Yuhong et Lemire, Daniel (2018). Full Solution Indexing for top-K Web Service Composition. IEEE Transactions on Services Computing, 11 (3), 521 - 533. 10.1109/TSC.2016.2578924

Lemire, Daniel, Kaser, Owen, Kurz, Nathan, Deri, Luca, O'Hara, Chris, Saint-Jacques, François et Ssi-Yan-Kai, Gregory (2018). Roaring Bitmaps: Implementation of an Optimized Software Library. Software: Practice and Experience, 48 (4), 867–895. 10.1002/spe.2560

Lemire, Daniel, Kurz, Nathan et Rupp, Christoph (2018). Stream VByte: Faster byte-oriented integer compression. Information Processing Letters, 130. 10.1016/j.ipl.2017.09.011

Muła, Wojciech, Kurz, Nathan et Lemire, Daniel (2018). Faster population counts using AVX2 instructions. Computer Journal, 61 (1). 10.1093/comjnl/bxx046

Badia, Antonio et Lemire, Daniel (2018). On Desirable Semantics of Functional Dependencies over Databases with Incomplete Information. Fundamenta Informaticae, 158 (4), 327-352. 10.3233/FI-2018-1651

Ivanchykhin, Dmytro, Ignatchenko, Sergey et Lemire, Daniel (2017). Regular and almost universal hashing: an efficient implementation. Software: Practice and Experience, 47 (10). 10.1002/spe.2461

Lemire, Daniel et Rupp, Christoph (2017). Upscaledb: Efficient Integer-Key Compression in a Key-Value Store using SIMD Instructions. Information Systems, 66, 13–23. 10.1016/j.is.2017.01.002

Lemire, Daniel, Ssi-Yan-Kai, Gregory et Kaser, Owen (2016). Consistently faster and smaller compressed bitmaps with Roaring. Software: Practice and Experience, 46 (11), 1547-1569. 10.1002/spe.2402

Lemire, Daniel et Kaser, Owen (2016). Faster 64-bit universal hashing using carry-less multiplications. Journal of Cryptographic Engineering, 6 (3), 171-185. 10.1007/s13389-015-0110-5

Chambi, Samy, Lemire, Daniel, Kaser, Owen et Godin, Robert (2016). Better bitmap performance with Roaring bitmaps. Software: Practice and Experience, 45 (5), 709–719. 10.1002/spe.2325

Chambi, Samy, Lemire, Daniel et Godin, Robert (2016). Vers de meilleures performances avec des Roaring bitmaps. Technique et Science Informatiques, 35 (3), 335-355.

Kaser, Owen et Lemire, Daniel (2016). Compressed bitmap indexes: beyond unions and intersections. Software: Practice and Experience, 46 (2). 10.1002/spe.2289

Lemire, Daniel, Boytsov, Leonid et Kurz, Nathan (2016). SIMD Compression and the Intersection of Sorted Integers. Software: Practice and Experience, 46 (6).

Badia, Antonio et Lemire, Daniel (2015). Functional dependencies with null markers. Computer Journal, 58 (5), 1160-1168. 10.1093/comjnl/bxu039

Zhao, Wayne Xin, Zhang, Xudong, Lemire, Daniel, Shan, Dongdong, Nie, Jian-Yun, Yan, Hongfei et Wen, Ji-Rong (2015). A General SIMD-based Approach to Accelerating Compression Algorithms. ACM Transactions on Information Systems, 33 (3). 10.1145/2735629

Zhu, Xiaodan, Turney, Peter, Lemire, Daniel et Vellino, Andre (2015). Measuring academic influence: Not all citations are equal. Journal of the Association for Information Science and Technology, 66 (2), 408-427. 10.1002/asi.23179

Lemire, Daniel et Boytsov, Leonid (2015). Decoding billions of integers per second through vectorization. Software: Practice & Experience, 45 (1), 1-29. 10.1002/spe.2203

Crainiceanu, Adina et Lemire, Daniel (2015). Bloofi : Multidimensional Bloom Filters. Information Systems, 54. 10.1016/j.is.2015.01.002

Lemire, Daniel et Kaser, Owen (2014). Strongly universal string hashing is fast. Computer Journal, 57 (11), 1624-1638. 10.1093/comjnl/bxt070

Webb, Hazel, Lemire, Daniel et Kaser, Owen (2013). Diamond dicing. Data & Knowledge Engineering, 86. 10.1016/j.datak.2013.01.001

Prekopcsák, Zoltán et Lemire, Daniel (2012). Time Series Classification by Class-Specific Mahalanobis Distance Measures. Advances in Data Analysis and Classification, 6 (3). 10.1007/s11634-012-0110-6

Lemire, Daniel, Kaser, Owen et Gutarra, Eduardo (2012). Reordering rows for better compression: Beyond the lexicographic order. ACM Transactions on Database Systems, 37 (3). 10.1145/2338626.2338627

Neylon, Cameron, Aerts, Jan, Brown, C. Titus, Coles, Simon J., Hatton, Les, Lemire, Daniel, Millman, K. Jarrod, Murray-Rust, Peter, Perez, Fernando, Saunders, Neil, Shah, Nigam, Smith, Arfon, Varoquaux, Gaël et Willighagen, Egon (2012). Changing computational research. The challenges ahead. Source Code for Biology and Medicine, 7 (2). 10.1186/1751-0473-7-2

Lemire, Daniel (2012). The universality of iterated hashing over variable-length strings. Discrete Applied Mathematic, 160 (4-5), 604–617. 10.1016/j.dam.2011.11.009

Lemire, Daniel et Kaser, Owen (2011). Reordering Columns for Smaller Indexes. Information Sciences, 181 (12), 2550–2570. 10.1016/j.ins.2011.02.002

Badia, Antonio et Lemire, Daniel (2011). A call to arms: Revisiting database design. SIGMOD Record, 40 (3), 61-69. 10.1145/2070736.2070750

Lemire, Daniel et Kaser, Owen (2010). Recursive n-gram hashing is pairwise independent, at best. Computer Speech & Language, 24 (4), 698-710. 10.1016/j.csl.2009.12.001

Lemire, Daniel, Kaser, Owen et Aouiche, Kamel (2010). Sorting improves word-aligned bitmap indexes. Data & Knowledge Engineering, 69 (1), 3-28. 10.1016/j.datak.2009.08.006

Lemire, Daniel (2009). Faster retrieval with a two-pass dynamic-time-warping lower bound. Pattern Recognition, 42 (9). 10.1016/j.patcog.2008.11.030

Lemire, Daniel, Brooks, Martin et Yan, Yuhong (2009). An optimal linear time algorithm for quasi-monotonic segmentation. International Journal of Computer Mathematics, 86 (7). 10.1080/00207160701694153

Lemire, Daniel et Kaser, Owen (2008). Hierarchical Bin Buffering: Online Local Moments for Dynamic External Memory Arrays. ACM Transactions on Algorithms, 4 (1), 1-31. 10.1145/1328911.1328925

Kaser, Owen et Lemire, Daniel (2006). Attribute value reordering for efficient hybrid OLAP. Information Systems, 176 (16), 2304-2336. 10.1016/j.ins.2005.09.005

Lemire, Daniel (2006). Streaming maximum-minimum filter using no more than three comparisons per element. Nordic Journal of Computing, 13 (4), 328-339.

Lemire, Daniel (2005). Scale and translation invariant collaborative filtering systems. Information Retrieval, 8 (1), 129-150. 10.1023/B:INRT.0000048492.50961.a6

Lemire, Daniel, Boley, Harold, McGrath, Sean et Ball, Marc (2005). Collaborative filtering and inference rules for context-aware learning object recommendation. Interactive Technology and Smart Education, 2 (3). 10.1108/17415650580000043

Dubuc, Serge, Lemire, Daniel et Merrien, Jean-Louis (2001). Fourier analysis of 2-point Hermite interpolatory subdivision schemes. Journal of Fourier Analysis and Applications, 7 (5), 532-552. 10.1007/BF02511225

Livres

Lemire, Daniel (2025). Maîtriser la programmation: Des tests à la performance en Go. . ISBN 9798316774128

Lemire, Daniel (2025). Mastering Programming: From Testing to Performance in Go. . ISBN 9798280117723

Godin, Robert et Lemire, Daniel (2024). Programmation avec Python: des jeux au Web. . ISBN 979-8874122553

Lemire, Daniel, Mezghani, Neila, Boissières, Élodie, Godin, Robert, Louafi, Habib, Osei, Richmond, Shuraida, Shadi, Schmitt, Renée-Maria et Vieru, Dragos (2024). La science des données: Théorie et applications avec R et Python. Publication indépendante. ISBN 979-8-3257-7723-3

Godin, Robert et Lemire, Daniel (2024). Java pas à pas: Introduction à la programmation et au langage Java. . ISBN 979-8-8728-5037-3

Chapitres de livres

Noël, Sylvie et Lemire, Daniel (2010). On the Challenges of Collaborative Data Processing. Dans Foster, Jonathan (dir.), Collaborative Information Behaviour. User Engagement and Communication Sharing (p. 55-71). IGI Global : IGI Global.

Aouiche, Kamel, Lemire, Daniel et Godin, Robert (2009). Web 2.0 OLAP: From data cubes to tag clouds. Dans Web Information Systems and Technologies. 4th International Conference, WEBIST 2008, Funchal, Madeira, Portugal, May 4-7, 2008, Revised Selected Papers. Springer, coll. « Lecture Notes in Business Information Processing », vol. 18.

Communications dans des actes avec comité de lecture

Miladi, Fatma, Psyché, Valéry, Diattara, Awa, El Mawas, Nour et Lemire, Daniel (sous presse). Evaluating a GPT-4 and Retrieval-Augmented Generation-Based Conversational Agent to Enhance Learning Experience in a MOOC. Dans 17th International Conference on Computer Supported Education.

Miladi, Fatma, Psyché, Valéry et Lemire, Daniel (2024). Comparative Performance of GPT-4, RAG-Augmented GPT-4, and Students in MOOCs. Dans Breaking Barriers with Generative Intelligence. Using GI to Improve Human Education and Well-Being (BBGI 2024). Springer, coll. « Communications in Computer and Information Science ». 10.1007/978-3-031-65996-6_7

Lewis, François, Plante, Patrick et Lemire, Daniel (2024). Présentation du projet de thèse : Pertinence de l’ajout d’une composante sérieuse personnalisée à un jeu vidéo d’action dédié à la rééducation en lecture d’élèves rencontrant des difficultés d’apprentissages. Dans Plante, Patrick; Papi, Cathia; Alexandre, Marie; Stockless, Alain et Gravel, France (dir.), Actes du Colloque ROC 2023 : La personne en formation au cœur de l'apprentissage avec le numérique (p. 119-123). Québec, Canada : REFAD, ONE, CIRTA, Université TÉLUQ.

Miladi, Fatma, Psyché, Valéry et Lemire, Daniel (2024). Leveraging GPT-4 for Accuracy in Education: A Comparative Study on Retrieval-Augmented Generation in MOOCs. Dans AIED 2024 - 25th International Conference on Artificial Intelligence in Education (LBR Track). New York City : Springer-Verlag, coll. « Communications in Computer and Information Science », vol. 2150. 10.1007/978-3-031-64315-6_40

Miladi, Fatma, Lemire, Daniel et Psyché, Valéry (2023). Learning Engagement and Peer Learning in MOOC: A Selective Systematic Review. Dans Frasson, Claude; Mylonas, Phivos et Troussas, Christos (dir.), Augmented Intelligence and Intelligent Tutoring Systems. 19th International Conference on Intelligent Tutoring Systems. ITS 2023. Springer, coll. « Lecture Notes in Computer Science », vol. 13891. 10.1007/978-3-031-32883-1_29

Begoli, Edmon, Camacho-Rodríguez, Jesús, Hyde, Julian, Mior, Michael et Lemire, Daniel (2018). Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources. Dans Proceedings of the 2018 ACM International Conference on Management of Data (SIGMOD) (p. 221-230). 10.1145/3183713.3190662

Chambi, Samy, Lemire, Daniel et Godin, Robert (2016). Nouveaux modèles d’index bitmap compressés à 64 bits. Dans Actes des 12es journées francophones sur les Entrepôts de Données et l'Analyse en Ligne.

Chambi, Samy, Lemire, Daniel, Godin, Robert, Boukhalfa, Kamel, Allen, Charles et Yang, Fangjin (2016). Optimizing Druid with Roaring bitmaps. Dans Proceedings of the 20th International Database Engineering & Applications Symposium. ACM. ISBN 978-1-4503-4118-9 10.1145/2938503.2938515

Li, Jing, Yan, Yuhong et Lemire, Daniel (2016). Scaling up Web Service Composition with the Skyline Operator. Dans Proceedings of the IEEE International Conference on Web Services 2016.

Ruer, Perrine, Gouin-Vallerand, Charles, Zhang, Le, Lemire, Daniel et Vallières, Évelyne F. (2015). An analysis tool for the contextual information from field experiments on driving fatigue. Dans Proceeding of the Ninth International and Interdisciplinary Conference on Modeling and Using Context (Context 2015). Springer, coll. « LNAI ».

Li, Jing, Yan, Yuhong et Lemire, Daniel (2015). A web service composition method based on compact K2-trees. Dans Proceedings of the IEEE International Conference on Services Computing (p. 403 - 410). IEEE. ISBN 978-1-4673-7280-0 10.1109/SCC.2015.62

Plaisance, Jeff, Kurz, Nathan et Lemire, Daniel (2015). Vectorized VByte Decoding. Dans Proceedings of the First International Symposium on Web Algorithms.

Chambi, Samy, Lemire, Daniel et Godin, Robert (2014). Roaring bitmap : nouveau modèle de compression bitmap. Dans Actes des 10e journées francophones sur les Entrepôts de Données et l'Analyse en Ligne.

Li, Jing, Yan, Yuhong et Lemire, Daniel (2014). Full Solution Indexing Using Database for QoS-aware Web Service Composition. Dans Proceedings of the IEEE International Conference on Services Computing (p. 99 - 106). IEEE. ISBN 978-1-4799-5065-2 10.1109/SCC.2014.22

Lemire, Daniel et Vellino, Andre (2011). Extracting, Transforming and Archiving Scientific Data. Dans Proceedings of the Fourth Workshop on Very Large Digital Libraries. DELOS Association for Digital Libraries.

Kaser, Owen, Lemire, Daniel et Aouiche, Kamel (2008). Histogram-Aware Sorting for Enhanced Word-Aligned Compression in Bitmap Indexes. Dans Proceedings of the 11th ACM International Workshop on Data Warehousing and OLAP. ACM.

Webb, Hazel, Kaser, Owen et Lemire, Daniel (2008). Pruning Attributes From Data Cubes with Diamond Dicing. Dans IDEAS '08 Proceedings of the 2008 international symposium on Database engineering & applications. ACM International Conference Proceeding Series.

Aouiche, Kamel, Lemire, Daniel et Godin, Robert (2008). Collaborative OLAP with Tag Clouds: Web 2.0 OLAP Formalism and Experimental Evaluation. Dans Proceedings of WEBIST 2008. Portugal : Institute for Systems and Technologies of Information, Control and Communication.

Aouiche, Kamel et Lemire, Daniel (2007). A Comparison of Five Probabilistic View-Size Estimation Techniques in OLAP. Dans Proceedings of the 10th International Workshop on Data Warehousing and OLAP. ACM.

Aouiche, Kamel et Lemire, Daniel (2007). Unasssuming View-Size Estimation Techniques in OLAP. Dans Proceedings of the 9th International Conference on Enterprise Information Systems. Portugal : INSTICC.

Kaser, Owen et Lemire, Daniel (2007). Removing Manually-Generated Boilerplate from Electronic Texts: Experiments with Project Gutenberg e-Books. Dans Spencer, Bruce; Story, Margaret-Ann et Stewart, Darlene (dir.), Proceedings of the 2007 Conference of the Center for Advanced Studies on Collaborative Research (CASCON '07). Riverton, NJ, É.-U. : IBM.

Kaser, Owen et Lemire, Daniel (2007). Tag-Cloud Drawing: Algorithms for Cloud Visualization. Dans Proceedings of the Tagging and Metadata for Social Information Organization Workshop, 16th International World Wide Web Conference (WWW 2007). Banff, Canada : IW3C2.

Kucerovsky, Dan et Lemire, Daniel (2007). Monotonicity Analysis over Chains and Curves. Dans Curve and surface fitting: Avignon 2006 (p. 180-190). Brentwood, TN, É.-U. : Nashboro Press.

Kaser, Owen, Lemire, Daniel et Keith, Steven (2006). The LitOLAP Project: Data Warehousing with Literature. Dans Proceedings of the 2006 CaSTA Conference. University of New Brunswick.

Brooks, Martin, Yan, Yuhong et Lemire, Daniel (2005). Scale-Based Monotonicity Analysis in Qualitative Modelling with Flat Segments. Dans Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence. Edinburgh, UK : IJICAI.

Lemire, Daniel (2005). A Better Alternative to Piecewise Linear Time Series Segmentation. Dans Apte, Chid; Skillicorn, David; Liu, Bing et Parthasara, Srinivasan (dir.), Proceedings of the 2007 SIAM International Conference on Data Mining (SDM'07) (p. 545-550). Minneapolis, Minnesota : SIAM. 10.1137/1.9781611972771.59

Lemire, Daniel, Brooks, Martin et Yan, Yuhong (2005). An Optimal Linear Time Algorithm for Quasi-Monotonic Segmentation. Dans Han, Jiawei; Wah, Benjamin W.; Vijay, Raghavan; Wu, Xindong et Rastogi, Rajeev (dir.), Proceedings of the Fifth IEEE International Conference on Data Mining (ICDM-05) (p. 709-712). Piscataway, NJ : IEEE. 10.1109/ICDM.2005.25

Lemire, Daniel et Maclachlan, Anna (2005). Slope One Predictors for Online Rating-Based Collaborative Filtering. Dans Kargupta, Hillol; Srivastava, Jaideep; Kamath, Chandrika et Goodman, Arnold (dir.), Proceedings of the 2005 SIAM International Conference on Data Mining (SDM'05) (p. 471-475). Newport Beach, CA : SIAM.

Anderson, Michelle, Ball, Marcel, Boley, Harold, Greene, Stephen, Howse, Nancy, Lemire, Daniel et McGrath, Sean (2003). RACOFI: A Rule-Applying Collaborative Filtering System. Dans Proceedings of the IEEE/WIC COLA 2003.

Kaser, Owen et Lemire, Daniel (2003). Attribute Value Reordering for Efficient Hybrid OLAP. Dans Rizzi, Stefano et Song, Il-Yeol (dir.), Proceedings of the ACM Sixth International Workshop on Data Warehousing and OLAP (p. 1-8). New Orleans, LA : ACM.

Lemire, Daniel (2003). A Family of 4-Point Dyadic Multistep Subdivision Schemes. Dans Cohen, Albert; Merrien, Jean-Louis et Scumaker, Larry L. (dir.), Curves and Surface Fitting: Saint-Malo 2002 (p. 259-268). Brentwood, TN, USA : Nashboro Press.

Lemire, Daniel (2002). Wavelet-Based Relative Prefix Sum Methods for Range Sum Queries in Data Cubes. Dans Stewart, Darlene A. et Johnson, J. Howard (dir.), Proceedings of the 2002 Conference of the Center for Advanced Studies on Collaborative Research (CASCON '02) (p. 6). Riverton, NJ, USA : IBM.

Communications avec comité de lecture

Plante, Patrick, Desjardins, Guillaume, Dionne, Pierre-Olivier, Marineau, Sophie, Paré, Jean-François, Sauvé, Louise, Savard, Isabelle, Pinard, Anne-Marie, Lemire, Daniel et Angulo Mendoza, Gustavo Adolfo (oct. 2019). Game Design Service Platform for Seniors' Health and Well-being. Affiche présentée à la AGE-WELL 2019 Annual Conference, Moncton, Canada.

Aouiche, Kamel, Lemire, Daniel et Kaser, Owen (juin 2008). Tri de la table de faits et compression des index bitmaps avec alignement sur les mots. Communication présentée aux 24ièmes journées 'Bases de Données Avancées'.

Communications dans des actes sans comité de lecture

Lemire, Daniel (2021). Unicode at Gigabytes per Second. Dans Lecroq, Thierry et Touzet, Hélène (dir.), SPIRE 2021: String Processing and Information Retrieval. 10.1007/978-3-030-86692-1_2

Autres contributions sans comité de lecture

Desjardins, Guillaume et Plante, Patrick (2021). Guide des bonnes pratiques pour la conception de jeux sérieux et thérapeutiques destinés aux aînés (avec la collaboration de Marineau, Sophie; Angulo Mendoza, Gustavo Adolfo; Savard, Isabelle; Pinard, Anne Marie; Lemire, Daniel; Paré, Jean-François et Pouliot, Sylvie) (Rapport de recherche). Québec, Canada : Observatoire du numérique en éducation.

Prix et distinctions

Reconnaissance

Médaille du couronnement du Roi Charles III (2025)
Cercle d'excellence de l'Université du Québec (2024) avec l'équipe « Robot »
Prix d’excellence de l'Université du Québec (2020) pour une réalisation en recherche et création (tous secteurs confondus)
Cercle d'excellence de l'Université du Québec (2019)

Enseignement

Prix Sherpa (2023) pour dévouement en enseignement

Prix industriels

Google Open Source Peer Bonus Program (2012)

Communications primées

Best student paper award (IEEE SCC 2014)
Best paper award (CASCON 2002)

Service à la collectivité

conférences publiques

Conférence Ada: Parsing Millions of URLs per Second (NodeConf EU 2023)
Conférence Binary Fuse Filters: Fast and Tiny Immutable Filters (SPAA 2023)
Conférence Accurate and efficient software microbenchmarks (SIGPLAN BID 2023)
Conférence Unicode at gigabytes per second (SPIRE 2021)
Conférence Parsing numbers at a gigabyte per second (MIT Fast Code Seminar 2021)
Conférence Floating-point Number Parsing w/Perfect Accuracy at GB/sec (Go Systems Conf SF 2020)
Conférence Data Engineering at the Speed of Your Disk (Performance Summit 3, Facebook, 2020)
Conférence Parsing JSON Really Quickly: Lessons Learned (QCon 2019, San Francisco)
Conférence Next Generation Indexes For Big Data Engineering (ODSC 2018, Boston)
Conférence Engineering Fast Indexes for Big Data Applications (Spark Summit East 2017, Boston)
Conférence Engineering Fast Indexes for Big Data Applications (deep dive) (Spark Summit East 2017, Boston)
Panel Algorithms: How content finds ‘you’ au sommet de la discoverabilité (CRTC, Toronto, 2016)
Panel Pour la perennité de nos contenus nationaux : l'enjeu de la visibilité aux rencontres de l'ADISQ (Montréal, 2016)

COMITÉ DE PROGRAMME DE CONFÉRENCES INTERNATIONALES

WSDM 2026: The Ninetenth International Conference on Web Search and Data Mining (March 10-14, 2026, in Boise, Idaho, USA) -- Senior Member
CIKM 2025: 33th ACM International Conference on Information and Knowledge (October 21-25, 2025, in Boise, Idaho, USA) -- Senior Member
BIGDACI 2025: 10th International Conference on Big Data Analytics, Data Mining and Computational Intelligence (23-25 July 2025, in Lisbon, Portugal)
SIGIR 2025: The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (13-18 July 2025, in Padua, Italy)
ECMLPKDD 2025: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (15-19 September 2025, in Oporto, Portugal)
WSDM 2025: The Eighteenth International Conference on Web Search and Data Mining (March 10-14, 2025, in Hannover, Germany) -- Senior Member
ECMLPKDD 2024: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (September 9-13, 2024, in Vilnius, Lithuania)
SIGIR 2024: The 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (July 14-18, 2024, in Washington D.C., USA)
ECMLPKDD 2023: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (September 18-22, 2023, in Turin, Italy)
SIGKDD 2023: 29th SIGKDD Conference on Knowledge Discovery and Data Mining (August 6, 2023, in Long Beach, California, USA)
SIGIR 2023: The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (July 23-27, 2023, in Taiwan)
EDA 2022: 18e journées EDA Business Intelligence and Big Data (Clermont-Ferrand, France, 27-28 octobre 2022)
SIGIR 2022: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (July 11-15, 2022, in Madrid, Spain)
DOLAP 2022: 24th International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data
WSDM 2022: 15th ACM International WSDM Conference (February 2-March 4, 2022, in Phoenix, AZ, USA)
ASD 2021: 13th edition of the Conference on Advances in the Science of Data (October 24-25, 2021, in Blida, Algeria)
CIKM 2021: 30th ACM International Conference on Information and Knowledge (November 1-5, 2021, in Gold Coast, Queensland, Australia)
ECML/PKDD 2021: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (September 13-17, 2021, in Bilbao, Spain)
EDA 2021: 17e journées EDA Business Intelligence and Big Data (1-2 juillet 2021)
SIGKDD 2021: 27th International Conference on Knowledge Discovery and Data Mining (August 14-18, 2021, in Singapore)
SIGIR 2021: 44th International ACM SIGIR Conference on Research and Development in Information Retrieval
DOLAP 2021: 23rd International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data
WSDM 2021: 14th ACM International WSDM Conference (March 8-12, 2021, in Jerusalem, Israel)
EDML 2020: Second Workshop on Evaluation and Experimental Design
RecSys 2020: 14th ACM Recommender Systems Conference (2020, in Rio de Janeiro, Brazil)
BBIGAP 2020: Second International Workshop for Business Intelligence & Big Data Applications
ECML-PKDD 2020: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (Area Chair)
CIKM 2020: 29th ACM International Conference on Information and Knowledge
DaWak 2020: 22nd International Conference on Big Data Analytics and Knowledge Discovery
SIGIR 2020: 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval
DOLAP 2020: 22nd International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data
ADBIS 2020: 24th European Conference on Advances in Databases and Information Systems (August 25-28, 2020, in Lyon, France)
CIKM 2019: 28th ACM International Conference on Information and Knowledge Management (November 3-7, 2019, in Beijing, China)
RecSys 2019: 13th ACM Recommender Systems Conference (September 2019, in Copenhagen, Denmark)
BBigAP 2019: 1st International Workshop on BI & Big Data Applications, in conjunction with the 23rd European Conference on Advances in Databases and Information Systems (ADBIS 2019) (September 8, 2019, in Bled, Slovenia)
DOLAP 2019: 21st International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data (March 26, 2019, in Lisbon, Portugal)
CIKM 2018: 27th ACM International Conference on Information and Knowledge Management (October 22-26, 2018, in Turin, Italy)
ASD 2018: 12th edition of the Conference on Advances of Decisional Systems: Big Data & Applications (May 2018, in Marrakech, Morocco)
RecSys 2018: 12th ACM Recommender Systems Conference (October 2018, in Vancouver, Canada)
WABiD 2018: 1st International Workshop on Advances on Big Data Management, Analytics and Security (September 2018, in Budapest, Hungary)
WWW 2018: 27th International WWW Conference (April 23-27, 2018, in Lyon, France)
DOLAP 2018: 19th International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data (March 26-29, 2018, in Vienna, Austria)
CIKM 2017: 26th ACM International Conference on Information and Knowledge Management (November 6-10, 2017, in Singapore)
SPIRE 2017: 24th International Symposium on String Processing and Information Retrieval (September 26-29, 2017, in Palermo, Italy)

ORGANISMES SUBVENTIONNAIRES

FRQNT: comité d'évaluation 03F (informatique théorique) depuis 2007.
FRQNT: comité d'évaluation 309 (subvention d'équipe en informatique) depuis 2006.
CRSNG: comité d'évaluation du programme de subventions d’outils et d’instruments de recherche dans les sciences informatiques (2012-2015)
CRSNG: comité d'évaluation des subventions à la découverte en Sciences informatiques (2018-2021), coprésident du comité en 2019-2020 et 2020-2021

ÉVALUATEUR EXTERNE (DOCTORAT)

Lockman Saleh de l'UQAM (2025) - supervisé par Hafedh Mili et Mounir Boukadoum.
Jaël Champagne Gareau de l'UQAM (2024) - dirigé par Éric Beaudry.
Nathan Maurice de la Sorbonne (2024) - dirigé par Lionel Lacassagne.
Nigel Medforth de l'Université Simon Fraser (2022) - dirigé par Robert Cameron.
Luca Versari de l'Université de Pise, Italie (2021) - dirigé par Roberto Grossi
Kareem El Gebaly à l'Université Waterloo (2018) - dirigé par Jimmy Lin, Lukasz Golab et Ashraf Aboulnaga.
Mohammed Shaaban à l'Université Pierre et Marie Curie (2017) - dirigé par Patrick Garda.
Mehdi Boukhechba à l'UQAC (2016) - dirigé par Abdenour Bouzouane et Charles Gouin-Vallerand.
Hicham Assoudi à l'UQAM (2016) - dirigé par Hakim Lounis.
Khaled Dehdouh de Lyon 2 (2015) - dirigé par Omar Boussaid.
Martin Leginus de l'Université Aalborg (2015) - dirigé par Peter Dolog.
Ahmad Taleb de l'Université Concordia (2011) - dirigé par Todd Eavis.

ÉVALUATEUR EXTERNE (PROMOTION)

Guadalupe Canahuate de l'Université de l'Iowa.
Sabine Loudcher Rabaseda de l'Université Lyon2 - dossier d'habilitation.
Jason Sawin de l'Université of St. Thomas.
Amer Nizar AbuAli de la Philadelphia University.
Jinan Fiaidhi de Lakehead University.

REVUES

Editor, Software: Practice and Experience (2021-...).
Distinguished Referee, Software: Practice and Experience, 2018.
Associate editor, Heliyon Computer Science (2015-2023).