🧬 Single-Cell Multi-Omics Integration

A Comprehensive Guide to Methods, Frameworks, and Best Practices (2015-2025)

From early paired measurements to modern foundation models: Understanding how to integrate RNA-seq, ATAC-seq, protein abundance, spatial data, and perturbation responses at single-cell resolution. Based on systematic analysis of 40+ landmark papers spanning a decade of innovation.

40+

Papers Analyzed
(2015-2025)

Integration
Categories

10+

Omics
Modalities

100M+

Cells in Foundation
Model Training

📖 What is Single-Cell Multi-Omics Integration?

Single-cell multi-omics integration combines measurements of different molecular layers (transcriptome, epigenome, proteome, spatial location) from the same or related cells to build comprehensive cellular maps. This integration is essential for understanding cell states, developmental trajectories, disease mechanisms, and therapeutic responses.

Why Multi-Omics Integration Matters

Comprehensive Cell State Definition: Single modalities provide incomplete views; RNA tells what's transcribed, ATAC reveals accessible chromatin, proteins show functional output
Regulatory Mechanism Discovery: Linking chromatin accessibility → transcription → protein abundance reveals gene regulatory networks and signaling cascades
Batch Effect Correction: Harmonizing data across experiments, technologies, and labs enables atlas-scale analyses and meta-studies
Missing Modality Imputation: Predicting unmeasured features (e.g., protein from RNA) reduces experimental costs while maintaining biological insights
Spatial Context Integration: Combining molecular profiles with spatial locations reveals tissue architecture and cell-cell interactions
Perturbation Response Modeling: Understanding how genetic or chemical perturbations affect multiple molecular layers simultaneously

Integration Paradigms (Fu, Shaliu, et al. Nature Methods, 2025), (Liu, Chunlei, et al. Nature Methods, 2025)

According to the benchmark papers, there are six major multi-omics integration paradigms:

🔵 Vertical Integration

🟢 Diagonal Integration

🟡 Mosaic Integration

🔴 Cross Integration

🟣 Spatial Integration

🟠 Perturbation Integration

Each paradigm addresses different data structures and analytical challenges in multi-omics analysis.

📅 Evolution Timeline: From Paired Measurements to Foundation Models

2015-2017: Early Multi-Modal Technologies

Key Innovations:

G&T-seq (2015): First simultaneous RNA + DNA methylation
CITE-seq (2017): RNA + surface protein via antibody tags
mixOmics (2017): Statistical framework for multi-block data

Era Characteristic: Experimental methods development; simple statistical integration

2019-2020: Statistical Methods Era

Key Innovations:

DIABLO (2019): Multi-omics discriminant analysis
MOFA+ (2020): Multi-omics factor analysis with covariates

Era Characteristic: Matrix factorization; interpretable latent factors; limited scalability

2021-2022: Deep Learning Breakthrough

Key Innovations:

totalVI (2021): VAE for RNA + protein integration
Seurat WNN (2021): Weighted nearest neighbor multi-modal analysis
Concerto (2022): Contrastive learning for 10M+ cells

Era Characteristic: VAE dominance; scalability improvements; atlas-scale analyses

2023: Optimal Transport & Graph Methods

Key Innovations:

CellOT (2023): Neural optimal transport for perturbations
SIMBA (2023): Graph embedding with cells + features co-embedded

Era Characteristic: Theoretical rigor; optimal transport theory

2024: Foundation Model Era Begins

Key Innovations:

scGPT (2024): 100M parameter transformer on 33M cells

Era Characteristic: Pre-training paradigm; 10M+ cell datasets; transfer learning

2025: Specialized Foundation Models

Key Innovations:

CellWhisperer (2025): Instruction-tuned multimodal foundation model
Nicheformer (2025): Spatial multi-omics foundation model
OmiCLIP (2025): Visual-omics foundation model (H&E + transcriptomics)
MORPH (2025): Cross-condition perturbation prediction

Era Characteristic: Task-specific foundation models; comprehensive benchmarking; clinical translation focus

🔬 Method Taxonomy: Algorithmic Approaches

By Computational Framework

🧠 Variational Autoencoders (VAE-based)

Principle: Learn probabilistic latent representations with encoder-decoder architecture

Advantages: Uncertainty quantification; generative modeling; missing data imputation

totalVI (2021) - RNA+Protein

MultiVI (2023) - Mosaic integration

scVI (2018) - Single modality

🔄 Contrastive Learning

Principle: Learn representations by pulling similar samples together, pushing dissimilar apart

Advantages: Scalability to millions of cells; no explicit pairing needed; robust embeddings

Concerto (2022) - 10M+ cells

📊 Graph Neural Networks (GNN)

Principle: Model cells as graph nodes; aggregate information from neighborhoods

Advantages: Captures cell-cell relationships; flexible message passing; spatial awareness

SIMBA (2023) - Cells + features co-embedding

GLUE (2022) - Graph-based integration

SIMVI (2025) - Spatial + intrinsic disentanglement

🚀 Optimal Transport

Principle: Find minimal-cost mapping between cell distributions

Advantages: Theoretical guarantees; preserves distributional structure; interpretable

CellOT (2023) - Perturbation prediction

Labeled GWOT (2025) - Cross-modality alignment

SCOT (2022) - Gromov-Wasserstein

🤖 Foundation Models (Transformers)

Principle: Pre-train large models on massive datasets; fine-tune for specific tasks

Advantages: Transfer learning; few-shot adaptation; generalizable representations

CellWhisperer (2025) - Instruction-tuned

Nicheformer (2025) - Spatial specialist

scGPT (2024) - 33M cells pretrain

OmiCLIP (2025) - Visual-omics CLIP

🔗 Matrix Factorization & Classical

Principle: Decompose data matrices into latent factor representations

Advantages: Interpretable factors; computationally efficient; well-understood theory

MOFA+ (2020) - Multi-omics factors

Seurat CCA/WNN (2021) - Canonical correlation

mixOmics (2017) - Multiblock projection to latent structure (PLS)

DIABLO (2019) - Discriminant analysis

By Scale Capability

                Scalability Tiers
                Small Scale (<10K cells): MOFA+, DIABLO, mixOmics - ideal for pilot studies
Medium Scale (10K-100K cells): Seurat WNN, totalVI, MultiVI - standard analyses
Large Scale (100K-1M cells): Concerto, SIMBA, scBridge - atlas construction
Atlas Scale (>1M cells): Foundation models (scGPT, CellWhisperer), SnapATAC2 - population studies

            

📄 Landmark Papers by Computational Framework (2015-2025)

🧬 Experimental Technologies (Foundation)

CITE-seq: Simultaneous epitope and transcriptome measurement in single cells

2017 Nature Methods RNA+Protein

Pioneering technology combining RNA-seq with antibody-derived tags (ADT) for protein quantification. Enabled paired transcriptome-proteome measurements at single-cell resolution.

Key Contributions:

Antibody-oligonucleotide conjugation method
Validated on PBMC immune cell populations
Foundation for multi-modal single-cell biology

Paper

scONE-seq: A single-cell multi-omics method enables simultaneous dissection of phenotype and genotype heterogeneity from frozen tumors

2023 Science Advances DNA+RNA

scONE-seq is a versatile single-cell multi-omics method that simultaneously profiles whole-genome DNA and full-length RNA from the same cell in a one-pot reaction, enabling multi-omics analysis of frozen biobanked tumor samples and revealing transcriptionally normal-like tumor clones.

Applications:

Works with frozen tissue samples
Simultaneous DNA and RNA profiling
Tumor heterogeneity analysis

Paper

🔷 Variational Autoencoders & Probabilistic Models

Probabilistic harmonization and annotation of single-cell transcriptomics data with deep generative models (totalVI)

2021 Nature Methods VAE-based

Variational autoencoder for integrating RNA and protein measurements. Models technical effects including batch, background noise, and protein zero-inflation.

Capabilities:

Batch correction across technologies
Protein imputation from RNA
Uncertainty quantification

Paper scvi-tools GitHub

Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation (MultiVI)

2023 Nature Methods Mosaic Integration

Variational inference framework for mosaic multi-omics integration. Handles incomplete modality measurements across datasets with joint latent space.

Features:

Handles RNA+ADT+ATAC combinations
Missing modality imputation
Spatial deconvolution capabilities

Method	Year	Category	Modalities	Scale	Key Strength
Vertical Integration (Paired Multi-Modal)
Seurat WNN	2021	Vertical	RNA+ADT, RNA+ATAC	~100K cells	Cell-specific modality weighting; widely adopted
totalVI	2021	Vertical/Cross	RNA+ADT	~50K cells	Probabilistic; batch correction; imputation
Multigrate	2024	Vertical/Cross	RNA+ADT+ATAC	~100K cells	Tri-modal support; robust performance
Diagonal Integration (Unpaired, Non-Overlapping)
scBridge	2023	Diagonal	RNA+ATAC	~50K cells	Superior dimensionality reduction & clustering
GLUE	2022	Diagonal	RNA+ATAC	~50K cells	Graph neural network; best batch correction
scJoint	2022	Diagonal	RNA+ATAC	~100K cells	Multi-batch integration; transfer learning
Mosaic Integration (Overlapping Incomplete)
StabMap	2023	Mosaic	Any combination	~50K cells	Flexible; efficient; handles any modality pattern
MultiVI	2023	Mosaic	RNA+ADT+ATAC	~100K cells	VAE-based; missing modality imputation
Cobolt	2023	Mosaic	RNA+ADT+ATAC	~50K cells	Bayesian framework; uncertainty quantification
Spatial Integration
SIMVI	2025	Spatial	Spatial transcriptomics	~60K cells	Disentangles intrinsic vs spatial variation
OmiCLIP	2025	Spatial	H&E + ST	2.2M pairs	Visual-omics foundation model; H&E → gene expression
Tangram	2021	Spatial	Spatial mapping	~50K cells	Maps scRNA-seq to spatial coordinates
Perturbation-Aware Integration
CellOT	2023	Perturbation	RNA-seq (protein/imaging)	~50K cells	Neural OT; single-cell predictions
MORPH	2025	Perturbation	RNA + Imaging	~300K cells	Cross-modality; cross-cell line transfer
Labeled GWOT	2025	Perturbation	RNA + Protein	~50K cells	Label-constrained OT; L-fold speedup
Classical/Statistical Methods
MOFA+	2020	Vertical	Any	~10K cells	Interpretable factors; handles covariates
mixOmics	2017	Vertical	Any	~5K cells	Multiblock projection to latent structure (PLS); statistical rigor

📖 What is Single-Cell Multi-Omics Integration?

Why Multi-Omics Integration Matters

Integration Paradigms (Fu, Shaliu, et al. Nature Methods, 2025), (Liu, Chunlei, et al. Nature Methods, 2025)

🔵 Vertical Integration

🟢 Diagonal Integration

🟡 Mosaic Integration

🔴 Cross Integration

🟣 Spatial Integration

🟠 Perturbation Integration

📅 Evolution Timeline: From Paired Measurements to Foundation Models

🔬 Method Taxonomy: Algorithmic Approaches

By Computational Framework

🧠 Variational Autoencoders (VAE-based)

🔄 Contrastive Learning

📊 Graph Neural Networks (GNN)

🚀 Optimal Transport

🤖 Foundation Models (Transformers)

🔗 Matrix Factorization & Classical

By Scale Capability

Scalability Tiers

📄 Landmark Papers by Computational Framework (2015-2025)

🧬 Experimental Technologies (Foundation)

CITE-seq: Simultaneous epitope and transcriptome measurement in single cells

scONE-seq: A single-cell multi-omics method enables simultaneous dissection of phenotype and genotype heterogeneity from frozen tumors

🔷 Variational Autoencoders & Probabilistic Models

Probabilistic harmonization and annotation of single-cell transcriptomics data with deep generative models (totalVI)

Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation (MultiVI)

Cobolt: integrative analysis of multimodal single-cell sequencing data

🕸️ Graph-Based Methods

Integrated analysis of multimodal single-cell data (Seurat WNN)

SIMBA: single-cell embedding along with features

🔄 Optimal Transport Methods

Learning single-cell perturbation responses using neural optimal transport (CellOT)

Cross-modality matching and prediction of perturbation responses with labeled Gromov-Wasserstein optimal transport

🧠 Deep Learning & Neural Networks

Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram

scJoint integrates atlas-scale single-cell RNA-seq and ATAC-seq data with transfer learning

scBridge embraces cell heterogeneity in single-cell RNA-seq and ATAC-seq data integration

scMODAL: a general deep learning framework for comprehensive single-cell multi-omics data alignment with feature links

A visual-omics foundation model to bridge histopathology with spatial transcriptomics (OmiCLIP)

🎯 Contrastive Learning

Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale (Concerto)

🤖 Foundation Models & Transformers

scGPT: toward building a foundation model for single-cell multi-omics using generative AI

CellWhisperer: An instruction-tuned foundation model for single-cell multimodal analysis

🌉 Mosaic & Bridge Integration

Stabilized mosaic single-cell data integration using unshared features (StabMap)

Building a cross-species cell atlas with interpretable deep learning (Dictionary Learning)

🔬 Perturbation & Response Prediction

Predicting cell morphological responses to perturbations using generative modeling (IMPA)

📊 Benchmark & Review Papers

Multitask benchmarking of single-cell multimodal omics integration methods

Benchmarking single-cell multi-modal data integrations

How to build the virtual cell with artificial intelligence: Priorities and opportunities (AIVC)

The Human Cell Atlas: from a cell census to a unified foundation model

🔧 Methods Development & Innovation

SnapATAC2: A fast, scalable and versatile tool for analysis of single-cell omics data

SIMVI disentangles intrinsic and spatial-induced cellular states in spatial omics data

scMODAL: a general deep learning framework for comprehensive single-cell multi-omics data alignment

MORPH predicts the single-cell outcome of genetic perturbations across conditions and data modalities

MetaQ: fast, scalable and accurate metacell inference via single-cell quantization

ADTnorm: robust integration of single-cell protein measurement across CITE-seq datasets

📚 Comprehensive Method Comparison

By Integration Category & Performance

💡 Practical Implementation Guide

Choosing the Right Method: Decision Framework

Step 1: Identify Your Data Structure

Step 2: Consider Your Computational Resources

Common Pitfalls & Best Practices

Software Ecosystem & Tools