AI Cheatsheet

Supervised Learning

📊Core sklearn Pipeline

sklearn

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingClassifier

pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("clf",    GradientBoostingClassifier(
                  n_estimators=200, learning_rate=0.05
               ))
])
pipe.fit(X_train, y_train)
score = pipe.score(X_test, y_test)

🔍Cross-Validation & Grid Search

sklearn

from sklearn.model_selection import GridSearchCV

params = {
    "clf__n_estimators":   [100, 200, 300],
    "clf__learning_rate": [0.01, 0.05, 0.1],
    "clf__max_depth":      [3, 5, 7],
}
gs = GridSearchCV(pipe, params, cv=5, scoring="f1_macro", n_jobs=-1)
gs.fit(X_train, y_train)
print(gs.best_params_, gs.best_score_)

📈Evaluation Metrics

metrics

Metric	Function	Use When
Accuracy	`accuracy_score`	Balanced classes
F1 Score	`f1_score`	Imbalanced classes
ROC-AUC	`roc_auc_score`	Ranking quality
MSE/RMSE	`mean_squared_error`	Regression
R²	`r2_score`	Regression fit
Log Loss	`log_loss`	Probability output

🌲Algorithm Quick Reference

algos

Algorithm	Best For	Key Params
LinearRegression	Continuous, linear	fit_intercept
LogisticRegression	Binary/multi clf	C, solver
RandomForest	Tabular, robust	n_estimators, max_depth
XGBoost	Kaggle, tabular	lr, subsample, colsample
SVM	High-dim, small data	C, kernel, gamma
KNN	Simple baseline	n_neighbors, metric
K-Means	Clustering	n_clusters, init
DBSCAN	Density clustering	eps, min_samples

⚖️Bias-Variance Tradeoff

theory

Error = Bias² + Variance + Irreducible Noise

High BiasUnderfitting — model too simple. Fix: more features, complex model

High VarianceOverfitting — memorizing noise. Fix: regularization, more data, pruning

RegularizationL1 (Lasso) → sparsity. L2 (Ridge) → shrinkage. ElasticNet → both

🧹Feature Engineering

features

import pandas as pd
from sklearn.preprocessing import (
    StandardScaler, MinMaxScaler,
    LabelEncoder, OneHotEncoder
)

df["log_feat"] = np.log1p(df["skewed_col"])
df["interact"] = df["a"] * df["b"]
df["binned"]  = pd.cut(df["age"], bins=5, labels=False)
df = pd.get_dummies(df, columns=["category"], drop_first=True)

🔀Train/Val/Test Split Strategy

data

from sklearn.model_selection import (
    train_test_split, StratifiedKFold, TimeSeriesSplit
)
X_tv, X_test, y_tv, y_test = train_test_split(
    X, y, test_size=0.15, stratify=y, random_state=42
)
X_train, X_val, y_train, y_val = train_test_split(
    X_tv, y_tv, test_size=0.18, stratify=y_tv
)

For time-series use TimeSeriesSplit. For imbalanced use StratifiedKFold.

Unsupervised & Dimensionality Reduction

🗜️PCA & t-SNE

dim-red

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

pca = PCA(n_components=0.95)
X_pca = pca.fit_transform(X_scaled)
print(f"Dims: {X_pca.shape[1]}, var: {pca.explained_variance_ratio_.sum():.2%}")

tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_2d = tsne.fit_transform(X_pca)

PyTorch Core Patterns

🔥Model Anatomy

torch

import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.layers = nn.Sequential(
            nn.Linear(128, 256),
            nn.LayerNorm(256),
            nn.GELU(),
            nn.Dropout(0.1),
            nn.Linear(256, 10)
        )
    def forward(self, x):
        return self.layers(x)

🔄Training Loop Template

torch

for epoch in range(epochs):
    model.train()
    for xb, yb in train_loader:
        xb, yb = xb.to(device), yb.to(device)
        pred = model(xb)
        loss = criterion(pred, yb)
        opt.zero_grad()
        loss.backward()
        nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        opt.step()
        scheduler.step()

    model.eval()
    with torch.no_grad():
        val_loss = sum(criterion(model(xb.to(device)), yb.to(device))
                       for xb, yb in val_loader)

⚡Optimizers & Schedulers

optim

Optimizer	Best For
Adam	General default, fast convergence
AdamW	Transformers, proper weight decay
SGD + momentum	Vision, fine-tuning, sharp minima
Lion	Large models, memory efficient

opt = torch.optim.AdamW(model.parameters(), lr=3e-4, weight_decay=0.01)
sched = torch.optim.lr_scheduler.CosineAnnealingLR(opt, T_max=epochs)

📉Loss Functions

loss

Loss	Task
CrossEntropyLoss	Multi-class classification
BCEWithLogitsLoss	Binary / multi-label
MSELoss	Regression
HuberLoss	Robust regression
NLLLoss	Log-prob outputs
CTCLoss	Sequence-to-sequence (ASR)
TripletMarginLoss	Metric learning

🏗️Activation Functions

activations

Function	Formula	Use
ReLU	max(0,x)	Hidden layers (default)
GELU	x·Φ(x)	Transformers, BERT
SiLU/Swish	x·σ(x)	LLaMA, modern nets
Sigmoid	1/(1+e⁻ˣ)	Binary output
Tanh	(eˣ−e⁻ˣ)/(eˣ+e⁻ˣ)	RNNs, normalised
Softmax	eˣᵢ/Σeˣⱼ	Final classification

🧱Normalization Layers

norm

BatchNormNormalize over batch dim. Great for CNNs. Batch-size dependent.

LayerNormNormalize over feature dim. Standard for Transformers & RNNs.

GroupNormNormalize over groups. Works with small batches. Good for CV.

RMSNormSimplified LayerNorm (no mean shift). Used in LLaMA, Mistral.

💾Save / Load / Checkpoint

torch

torch.save({
    "epoch":      epoch,
    "model":      model.state_dict(),
    "optimizer":  opt.state_dict(),
    "scheduler": sched.state_dict(),
    "loss":       loss.item(),
}, "checkpoint.pt")

ckpt = torch.load("checkpoint.pt", map_location=device)
model.load_state_dict(ckpt["model"])

🎛️Regularization Techniques

reg

DropoutWeight DecayLabel Smoothing Grad ClippingEarly StoppingData Augment MixupCutMix

nn.Dropout(0.3)
nn.Dropout2d(0.2)
nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
criterion = nn.CrossEntropyLoss(label_smoothing=0.1)

Transformers & Language Models

🔤Self-Attention Mechanism

theory

Attention(Q,K,V) = softmax( QKᵀ / √d_k ) · V

import torch, torch.nn.functional as F

def scaled_dot_attention(Q, K, V, mask=None):
    d_k = Q.size(-1)
    scores = (Q @ K.transpose(-2, -1)) / d_k ** 0.5
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
    attn = F.softmax(scores, dim=-1)
    return attn @ V, attn

🤗HuggingFace Pipelines

transformers

from transformers import pipeline

tasks = {
  "sentiment":    pipeline("sentiment-analysis"),
  "ner":           pipeline("ner", aggregation_strategy="simple"),
  "summarize":     pipeline("summarization", model="facebook/bart-large-cnn"),
  "qa":            pipeline("question-answering"),
  "translate":     pipeline("translation_en_to_fr"),
  "zero-shot":     pipeline("zero-shot-classification"),
  "fill-mask":     pipeline("fill-mask", model="bert-base-uncased"),
  "text-gen":      pipeline("text-generation", model="gpt2"),
}

⚙️Fine-Tuning with Trainer API

transformers

from transformers import (
    AutoModelForSequenceClassification,
    AutoTokenizer, Trainer, TrainingArguments
)
model = AutoModelForSequenceClassification.from_pretrained(
    "bert-base-uncased", num_labels=3
)
args = TrainingArguments(
    output_dir="./out", num_train_epochs=3,
    per_device_train_batch_size=16,
    learning_rate=2e-5, weight_decay=0.01,
    evaluation_strategy="epoch", load_best_model_at_end=True
)
trainer = Trainer(model=model, args=args,
                  train_dataset=train_ds, eval_dataset=val_ds)
trainer.train()

🧩LoRA / PEFT Fine-Tuning

PEFT

from peft import get_peft_model, LoraConfig, TaskType

config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=16, lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none"
)
model = get_peft_model(base_model, config)
model.print_trainable_parameters()
# trainable: 0.1% of total params

🔗RAG — Retrieval Augmented Generation

RAG

Query→ Embed→ Vector Search→ Top-K Docs→ LLM + Context→ Answer

from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA

embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(docs, embeddings)
retriever = db.as_retriever(search_kwargs={"k": 4})
chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    retriever=retriever
)
result = chain.invoke({"query": question})

💬Prompt Engineering Patterns

prompts

Technique	When to Use
Zero-shot	Simple tasks, capable models
Few-shot	Format/style matters, examples help
Chain-of-Thought	Reasoning, math, multi-step logic
Tree-of-Thought	Complex decisions, branching
ReAct	Tool use, agents, search
Self-Consistency	Reduce variance, vote on answers
Role Prompting	Persona, domain expertise

🌡️LLM Sampling Parameters

LLM

Param	Range	Effect
temperature	0–2	0=deterministic, high=creative
top_p	0–1	Nucleus sampling mass
top_k	1–∞	Restrict to top k tokens
frequency_penalty	-2–2	Reduce repetition
presence_penalty	-2–2	Encourage new topics
max_tokens	1–ctx	Output length cap

📐Tokenization Quick Facts

tokens

GPT-4o~4 chars ≈ 1 token · 128K context window

Claude 3.5~3.5 chars ≈ 1 token · 200K context window

Gemini 1.51M context · video, audio, code, images

BPEByte-Pair Encoding — used by GPT, Llama, Mistral

WordPieceUsed by BERT, DistilBERT

SentencePieceUsed by T5, Gemma, multilingual models

Convolutional Networks

🔲Conv Layer Output Size

math

W_out = (W_in − K + 2P) / S + 1

W_inInput width/height

KKernel size

PPadding (same padding: P = (K-1)/2)

SStride

🏛️CNN Architecture Families

architectures

Model	Year	Key Innovation
AlexNet	2012	Deep CNN on GPU, ReLU, Dropout
VGG-16/19	2014	Uniform 3×3 convs, depth
ResNet-50	2015	Residual skip connections
EfficientNet	2019	Compound scaling (W×D×R)
ViT	2020	Patch-based transformer
ConvNeXt	2022	CNN with transformer design
SAM 2	2024	Segment anything, video

🖼️torchvision Transforms

torchvision

from torchvision import transforms as T

train_tfm = T.Compose([
    T.RandomResizedCrop(224),
    T.RandomHorizontalFlip(),
    T.ColorJitter(0.4, 0.4, 0.4, 0.1),
    T.RandomGrayscale(p=0.2),
    T.ToTensor(),
    T.Normalize([0.485,0.456,0.406],
                [0.229,0.224,0.225]),
])
val_tfm = T.Compose([
    T.Resize(256), T.CenterCrop(224),
    T.ToTensor(),
    T.Normalize([0.485,0.456,0.406],
                [0.229,0.224,0.225])
])

🎯Object Detection Metrics

metrics

IoU = Area(A∩B) / Area(A∪B)

mAP@0.5 = mean AP across classes at IoU 0.5

TPIoU ≥ threshold (typically 0.5)

FPPrediction with IoU < threshold

FNGround truth not detected

NMSNon-max suppression removes duplicate boxes

🔄Transfer Learning

transfer

from torchvision.models import resnet50, ResNet50_Weights

model = resnet50(weights=ResNet50_Weights.IMAGENET1K_V2)

for param in model.parameters():
    param.requires_grad = False

model.fc = nn.Sequential(
    nn.Linear(model.fc.in_features, 256),
    nn.ReLU(), nn.Dropout(0.3),
    nn.Linear(256, num_classes)
)
opt = torch.optim.Adam(model.fc.parameters(), lr=1e-3)

🌐Segmentation Methods

segmentation

Method	Type	Model
Semantic	Class per pixel	DeepLabV3, SegFormer
Instance	Individual objects	Mask R-CNN, YOLACT
Panoptic	Semantic+Instance	Panoptic-FPN, DETR
Promptable	Any object	SAM, SAM 2

Core RL Concepts

🎯Bellman Equations

theory

V(s) = max_a Σ P(s'|s,a) [R(s,a,s') + γ·V(s')]

Q(s,a) = R + γ·max_a' Q(s',a') [Bellman Optimality]

TD Error = R + γ·V(s') − V(s)

🗺️RL Algorithm Map

algos

Algorithm	Type	Best For
Q-Learning	Model-free, off-policy	Discrete tabular
DQN	Deep, off-policy	Discrete, Atari
DDQN	Deep, off-policy	Overestimation fix
A3C/A2C	Policy gradient	Parallel envs
PPO	On-policy, clip	Continuous actions
SAC	Off-policy, entropy	Continuous, robust
TD3	Deterministic PG	Robotics, continuous

🏋️Gymnasium Environment Loop

gymnasium

import gymnasium as gym

env = gym.make("CartPole-v1", render_mode="rgb_array")
obs, info = env.reset(seed=42)

for _ in range(500):
    action = env.action_space.sample()
    obs, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        obs, info = env.reset()

env.close()

📦Stable-Baselines3 Quick Start

SB3

from stable_baselines3 import PPO, SAC
from stable_baselines3.common.env_util import make_vec_env

env = make_vec_env("LunarLander-v2", n_envs=4)

model = PPO("MlpPolicy", env,
            n_steps=2048, batch_size=64,
            learning_rate=3e-4, verbose=1)
model.learn(total_timesteps=500_000)
model.save("ppo_lunar")

🧭Exploration Strategies

exploration

ε-greedyRandom action with prob ε, decay over time

BoltzmannSample actions with prob ∝ exp(Q/τ)

UCBUpper Confidence Bound — explore uncertain states

Entropy BonusAdd entropy term to reward (SAC, A2C)

RNDRandom Network Distillation — curiosity driven

🔁RLHF Pipeline

RLHF

Pretrain LLM→ SFT→ Reward Model→ PPO / DPO→ Aligned Model

SFTSupervised fine-tune on demonstration data

RMTrain reward model on human preference pairs

PPOOptimize LLM policy against reward model

DPODirect Preference Optimization — no explicit RM

Probability & Statistics

📐Key Probability Distributions

stats

Distribution	Params	Use in AI
Gaussian N(μ,σ²)	μ, σ	Weight init, VAE latent
Bernoulli	p	Binary classification
Categorical	p₁..pₖ	Token sampling, Softmax
Dirichlet	α	Topic models, LDA
Poisson	λ	Count data modeling
Beta	α, β	Bayesian priors, Thompson

∇Gradient Descent Variants

optimization

SGD: θ = θ − η·∇L(θ)

Momentum: v = βv + η∇L ; θ = θ − v

Adam: m̂ = m/(1−β₁ᵗ) ; v̂ = v/(1−β₂ᵗ) ; θ = θ − ηm̂/(√v̂+ε)

📏Distance & Similarity Metrics

metrics

Metric	Formula	Use
Euclidean	√Σ(aᵢ−bᵢ)²	KNN, KMeans
Cosine	a·b / (‖a‖‖b‖)	Embeddings, NLP
Manhattan	Σ\|aᵢ−bᵢ\|	Sparse, robust
KL Divergence	Σ P log(P/Q)	VAE, distributions
Mahalanobis	√(a-b)ᵀΣ⁻¹(a-b)	Anomaly detection

🧮Information Theory Essentials

info theory

Entropy: H(X) = −Σ P(x) log P(x)

Cross-Entropy: H(P,Q) = −Σ P(x) log Q(x)

KL: D_KL(P‖Q) = H(P,Q) − H(P)

Mutual Info: I(X;Y) = H(X) + H(Y) − H(X,Y)

🔢Linear Algebra for ML

linear algebra

import numpy as np

A = np.random.randn(4, 4)
U, S, Vt = np.linalg.svd(A)
eigenvals = np.linalg.eigvals(A)
rank = np.linalg.matrix_rank(A)

x = np.linalg.solve(A, b)
inv_A = np.linalg.inv(A)
det_A = np.linalg.det(A)
norm_A = np.linalg.norm(A, ord="fro")

🔗Bayes' Theorem & MAP

Bayesian

P(θ|X) = P(X|θ) · P(θ) / P(X)

Posterior ∝ Likelihood · Prior

MAP: θ* = argmax P(X|θ) · P(θ)

MLE: θ* = argmax P(X|θ) [flat prior]

Core Libraries

📦Python AI Ecosystem

ecosystem

Library	Purpose	Install
numpy	Array math, linear algebra	`pip install numpy`
pandas	DataFrames, data wrangling	`pip install pandas`
torch	Deep learning framework	`pip install torch`
transformers	Pretrained models, NLP	`pip install transformers`
scikit-learn	Classical ML, preprocessing	`pip install scikit-learn`
xgboost	Gradient boosting	`pip install xgboost`
langchain	LLM pipelines, agents	`pip install langchain`
gymnasium	RL environments	`pip install gymnasium`
diffusers	Diffusion models (HF)	`pip install diffusers`
faiss-cpu	Vector similarity search	`pip install faiss-cpu`
einops	Tensor rearranging	`pip install einops`
accelerate	Multi-GPU, mixed precision	`pip install accelerate`

⚡Accelerate & Mixed Precision

training

from accelerate import Accelerator

accelerator = Accelerator(mixed_precision="bf16")
model, optimizer, train_loader = accelerator.prepare(
    model, optimizer, train_loader
)
with accelerator.autocast():
    outputs = model(batch)
    loss = criterion(outputs, targets)
accelerator.backward(loss)
optimizer.step()

📊Weights & Biases (W&B)

experiment

import wandb

wandb.init(project="my-model", config={
    "lr": 3e-4, "epochs": 20,
    "batch_size": 64, "arch": "resnet50"
})

wandb.log({"loss": loss, "acc": acc, "epoch": epoch})
wandb.watch(model, log="all", log_freq=100)
wandb.finish()

🔍FAISS Vector Search

vector-db

import faiss, numpy as np

d = 768
index = faiss.IndexFlatIP(d)
faiss.normalize_L2(vectors)
index.add(vectors)

query = embed_text("What is attention?")
faiss.normalize_L2(query)
D, I = index.search(query, k=5)
print(f"Top-5 ids: {I[0]}, scores: {D[0]}")

🔧GPU Memory Tips

GPU

torch.cuda.empty_cache()
torch.backends.cuda.matmul.allow_tf32 = True

model = model.half()

with torch.autocast(device_type="cuda", dtype=torch.bfloat16):
    output = model(input)

torch.utils.checkpoint.checkpoint(fn, *args)

Gradient checkpointing trades compute for memory — saves ~60% VRAM at 30% slowdown.

🤖LLM API Providers

LLMs

Provider	Top Models	Context
OpenAI	GPT-4o, o3, o4-mini	128K
Anthropic	Claude 3.5, Claude 3 Opus	200K
Google	Gemini 2.0, Gemini 1.5 Pro	1M
Meta (OSS)	LLaMA 3.1, 3.3 (405B)	128K
Mistral	Mistral Large, Mixtral 8x22B	64K
Groq	LLaMA 3 (fast inference)	128K

🐳Docker + CUDA Setup

infra