Automating Reverse Engineering avec AI/ML, Graphs, and LLM Agents


Instructeur:  Malachi Jones
Dates:  15 au 18 juin 2026
Capacité:  25


Ce cours enseigne comment automatiser la rétro-ingénierie (RE) pour les logiciels malveillants, les micrologiciels et l'analyse de vulnérabilités en utilisant l'IA/ML, les graphes, les grands modèles de langage (LLM) et les agents. Les étudiants commencent avec Blackfyre, un framework développé pour ce cours et publié en open source, qui structure les binaires en Protocol Buffers (protobuf) pour l'analyse en aval. Ils utilisent également le plugin Ghidra Blackfyre, supportant à la fois l'exécution interactive et headless pour l'intégration dans les pipelines RE. Sur cette base, des laboratoires pratiques guident les étudiants dans l'implémentation d'un système d'analyse de graphes léger inspiré de BinQL qui s'intègre avec Neo4j pour représenter les binaires comme des graphes de fonctions, blocs de base, imports et chaînes, permettant des flux de travail tels que le regroupement de malware, l'analyse d'écosystème de micrologiciel et le traçage de vulnérabilités. Une implémentation de référence BinQL complète en open source sera publiée après le cycle de formation plus tard cette année. Pour réduire la complexité, les étudiants sont initiés à NL2GQL, qui traduit les questions RE en langage naturel en requêtes de graphes, leur permettant de se concentrer sur l'analyse plutôt que sur la syntaxe de requête.


La seconde moitié du cours se concentre sur les embeddings, les transformers et l'automatisation pilotée par LLM. Les étudiants apprennent à convertir les artefacts binaires—fonctions, chaînes, imports et blocs de base—en embeddings vectoriels pour la détection de similarité, le regroupement, la prédiction de noms de fonctions et l'analyse de vulnérabilités. Une technique centrale est BasicBlockRank (BBR), qui utilise les graphes de flux de contrôle et d'appels pour classer les blocs de base, les artefacts référencés héritant de leur importance, améliorant la qualité des embeddings pour les tâches en aval. Ces embeddings servent également de fondation pour les flux de travail RAG, KnowledgeRAG et agents, où ils ancrent la récupération, le raisonnement et la prise de décision. En s'appuyant sur cela, le cours introduit les transformers pour la prédiction de fonctions et la similarité binaire, et les pipelines d'agents utilisant Autogen et le Model Context Protocol (MCP). Il se conclut par le fine-tuning de modèles LLaMA via LLaMAFactory pour améliorer les applications spécifiques à la RE telles que l'étiquetage de fonctions, le reporting et la précision NL2GQL.



Aperçu du cours


Ce cours enseigne comment automatiser la rétro-ingénierie (RE) pour les logiciels malveillants, les micrologiciels et l'analyse de vulnérabilités en utilisant l'IA/ML, l'analyse de graphes, les grands modèles de langage (LLM) et les agents. Les étudiants commencent avec Blackfyre, un framework développé pour ce cours et publié en open source, qui structure les binaires en Protocol Buffers (protobuf) pour l'analyse en aval. Ils utilisent également le plugin Ghidra Blackfyre, supportant à la fois l'exécution interactive et headless pour l'intégration dans les pipelines RE. Sur cette base, des laboratoires pratiques guident les étudiants dans l'implémentation d'un système d'analyse de graphes léger inspiré de BinQL qui s'intègre avec Neo4j pour représenter les binaires comme des graphes de fonctions, blocs de base, imports et chaînes, permettant des flux de travail tels que le regroupement de malware, l'analyse d'écosystème de micrologiciel et le traçage de vulnérabilités. Une implémentation de référence BinQL complète en open source sera publiée après le cycle de formation plus tard cette année. Pour réduire la complexité, les étudiants sont initiés à NL2GQL, qui traduit les questions RE en langage naturel en requêtes de graphes, leur permettant de se concentrer sur l'analyse plutôt que sur la syntaxe de requête.


La seconde moitié du cours se concentre sur les embeddings, les transformers et l'automatisation pilotée par LLM. Les étudiants apprennent à convertir les artefacts binaires—fonctions, chaînes, imports et blocs de base—en embeddings vectoriels pour la détection de similarité, le regroupement, la prédiction de noms de fonctions et l'analyse de vulnérabilités. Une technique centrale est BasicBlockRank (BBR), qui utilise les graphes de flux de contrôle et d'appels pour classer les blocs de base, les artefacts référencés héritant de leur importance, améliorant la qualité des embeddings pour les tâches en aval. Ces embeddings servent également de fondation pour les flux de travail RAG, KnowledgeRAG et agents, où ils ancrent la récupération, le raisonnement et la prise de décision. En s'appuyant sur cela, le cours introduit les transformers pour la prédiction de fonctions et la similarité binaire, et les pipelines d'agents utilisant Autogen et le Model Context Protocol (MCP). Il se conclut par le fine-tuning de modèles LLaMA via LLaMAFactory pour améliorer les applications spécifiques à la RE telles que l'étiquetage de fonctions, le reporting et la précision NL2GQL.



Sujets par jour




Exigences matérielles/logicielles


Les étudiants doivent s'assurer d'avoir un ordinateur portable avec un minimum de 32 Go de RAM, 250 Go d'espace disque libre, et un processeur avec au moins 4 cœurs, équivalent à un Intel i7 ou supérieur. Le processeur doit être une architecture x86_64 pour assurer la compatibilité avec la machine virtuelle (VM) fournie par le cours et pour exécuter VirtualBox version 7.1 ou ultérieure. De plus, le processeur doit supporter AVX (Advanced Vector Extensions), qui sont requis pour exécuter des frameworks d'apprentissage automatique tels que TensorFlow et PyTorch. Les capacités de connectivité sont également essentielles pour accéder aux services externes utilisés dans les composants de grands modèles de langage (LLMs) du cours. VirtualBox devrait être pré-installé pour permettre la participation aux laboratoires pratiques et exercices.



Prérequis


Les étudiants doivent avoir une base solide en rétro-ingénierie et être à l'aise avec le développement Python orienté objet. La familiarité avec les concepts ML de base (p. ex., vecteurs, apprentissage supervisé, précision/rappel) est utile mais non requise; ces sujets seront introduits et couverts au début du cours pour amener tous les participants à une base commune.



Objectifs




Qui devrait suivre ce cours




Qui ne serait pas un bon candidat pour ce cours


Participants sans expérience préalable en rétro-ingénierie — le cours suppose une familiarité avec les concepts et outils RE.



Changements par rapport à l'offre précédente du cours


Le cours de cette année s'étend au-delà des versions antérieures en introduisant des flux de travail pilotés par les graphes, des méthodes LLM avancées et l'automatisation agentique pour la rétro-ingénierie:




BIO


Malachi Jones Dr. Malachi Jones est un chercheur principal et gestionnaire en IA/LLM de cybersécurité chez Microsoft, où il dirige actuellement une équipe qui fait progresser l'autonomie des agents d'équipe rouge au sein de Microsoft Security AI (MSECAI). Son objectif actuel est de construire des agents d'équipe rouge autonomes, tandis que ses travaux antérieurs se concentraient sur l'affinage de grands modèles de langage (LLM) pour les tâches de sécurité et le développement de capacités de rétro-ingénierie dans Security Copilot.

Avec plus de 15 ans dans la recherche en sécurité, Dr. Jones a contribué à la fois au monde académique et à l'industrie. Chez MITRE, il a fait progresser les approches basées sur le ML et l'IR pour la rétro-ingénierie automatisée, et chez Booz Allen Dark Labs, il s'est spécialisé dans la sécurité embarquée et a co-écrit le brevet américain 10,133,871.

En plus de son travail chez Microsoft, Dr. Jones est le fondateur de Jones Cyber-AI, une organisation dédiée à la recherche indépendante et aux initiatives d'enseignement. À travers Jones Cyber-AI, il a développé et enseigné son cours spécialisé, Automating Reverse Engineering Processes avec AI/ML, NLP, and LLMs, lors de conférences de premier plan, notamment Black Hat USA (2019, 2021, 2023–2025) et RECON Montreal (2023–2025). Sa recherche indépendante en IA/ML, graphes et agents LLM garantit que ses cours restent à la pointe et alignés avec les dernières avancées en cybersécurité et rétro-ingénierie.

Il a précédemment occupé le poste de professeur adjoint à l'Université du Maryland, College Park, et détient un B.S. en génie informatique de l'Université de Floride, ainsi qu'un M.S. et un Ph.D. de Georgia Tech, où ses recherches appliquaient la théorie des jeux à la cybersécurité. Son expertise continue de stimuler l'innovation en cybersécurité pilotée par l'IA et en rétro-ingénierie automatisée.



Pour s'inscrire

Cliquez ici pour vous inscrire.


Hex-Rays Magnet Forensics Trail of Bits