Generative AI

First-principles AI engineering from 21 foundational research papers.

Foundations

How models work: generative models, transformers, pretraining, fine-tuning, alignment.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Summary · Course

Scaling Laws for Neural Language Models

Summary · Course

Training Language Models to Follow Instructions with Human Feedback

Summary · Course

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Summary · Course

Learning Transferable Visual Models From Natural Language Supervision

Summary · Course

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Summary · Course

Denoising Diffusion Probabilistic Models

Summary · Course

Parameter-Efficient Transfer Learning for NLP

Summary · Course

LoRA: Low-Rank Adaptation of Large Language Models

Summary · Course

Prompt Engineering

How to instruct models: chain-of-thought, reasoning+acting, self-improvement.

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Summary · Course

ReAct: Synergizing Reasoning and Acting in Language Models

Summary · Course

Context Engineering

How to manage what models see: retrieval, position effects, memory.

Lost in the Middle: How Language Models Use Long Contexts

Summary · Course

MemGPT: Towards LLMs as Operating Systems

Summary · Course

Inference

How to run models smartly: sampling strategies, search over reasoning, speculative decoding.

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Summary · Course

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Summary · Course

Fast Inference from Transformers via Speculative Decoding

Summary · Course

Future Tracks

Computer vision – ResNet, AlexNet, VGG
Reinforcement learning – AlphaGo, PPO, MuZero
Optimization – Adam, BatchNorm, Dropout

Foundations

Generative Adversarial Nets

Auto-Encoding Variational Bayes

Attention Is All You Need

Improving Language Understanding by Generative Pre-Training

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Scaling Laws for Neural Language Models

Training Language Models to Follow Instructions with Human Feedback

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Learning Transferable Visual Models From Natural Language Supervision

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Denoising Diffusion Probabilistic Models

Parameter-Efficient Transfer Learning for NLP

LoRA: Low-Rank Adaptation of Large Language Models

Prompt Engineering

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

ReAct: Synergizing Reasoning and Acting in Language Models

Self-Refine: Iterative Refinement with Self-Feedback

Context Engineering

Lost in the Middle: How Language Models Use Long Contexts

MemGPT: Towards LLMs as Operating Systems

Inference

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Fast Inference from Transformers via Speculative Decoding

Future Tracks