Skip to content

Emory OMOP

Extract, Load, Transform (ELT)

Emory OMOP

Emory Enterprise OMOP
Applications
Applications
- Code
  Code
- GUI
  GUI
Blog
Blog
- Tags
- Archive
  Archive
  - March 2026
- Categories
  Categories
Contact Us
Contact Us
Data in Enterprise OMOP
Data in Enterprise OMOP
- Data Mapping
  Data Mapping
  - Custom Concepts
    
    Custom Concepts
    
    Contributing Vocabularies
    
    Network Study Bifurcation
    
    Requesting Mappings
    
    Custom Vocabulary Strategy
  - Extract Load Transform (ELT)
    
    Extract Load Transform (ELT)
    
    Era Algorithms
    
    Era Algorithms
  - Vocabulary Mapping Coverage
    
    Vocabulary Mapping Coverage
- Data Quality
  Data Quality
  - Data Quality Design
    
    Data Quality Design
    
    Subsampling (Canaries)
    
    Subsampling (Canaries)
  - Data Quality Results
    
    Data Quality Results
  - DBT Tests
    
    DBT Tests
  - Known Issues
    
    Known Issues
- NLP Infrastructure
  NLP Infrastructure
- Observed Conventions
  Observed Conventions
  - Documented Adherence
    
    Documented Adherence
  - Emory Conventions
    
    Emory Conventions
  - OHDSI Conventions
    
    OHDSI Conventions
- Releases
  Releases
  - V0.2.x
    
    V0.2.x
    
    V0.2.1
    
    V0.2.1
    
    V0.2.2
    
    V0.2.2
    
    V0.2.3
    
    V0.2.3
    
    V0.2.4
    
    V0.2.4
  - V1.x
    
    V1.x
    
    V1.0.0
    
    V1.0.0
    
    V1.1.0
    
    V1.1.0
Divisions
Divisions
- BrainHealth
  BrainHealth
- Nursing
  Nursing
- Winship
  Winship
OMOP Primers
OMOP Primers
- Standardized Categories
  Standardized Categories
  - Clinical Data
    
    Clinical Data
    
    Conditions
    Conditions
    
    Condition Occurrence
    
    Condition Occurrence
    
    Derived Condition Era
    
    Derived Condition Era
    
    Death
    
    Death
    
    Derived Elements
    
    Derived Elements
    
    Device Exposure
    
    Device Exposure
    
    Drugs
    Drugs
    
    Derived
    
    Derived
    
    Dose Era
    
    Dose Era
    
    Drug Era
    
    Drug Era
    
    Drug Exposure
    
    Drug Exposure
    
    Episodes
    Episodes
    
    Episode
    
    Episode
    
    Episode Event
    
    Episode Event
    
    Fact Relationship
    
    Fact Relationship
    
    Measurement
    
    Measurement
    
    Notes
    Notes
    
    Note
    
    Note
    
    Note NLP
    
    Note NLP
    
    Observation
    
    Observation
    
    Person
    
    Person
    
    Procedure Occurrence
    
    Procedure Occurrence
    
    Specimen
    
    Specimen
    
    Visits
    Visits
    
    Visit Detail
    
    Visit Detail
    
    Visit Occurrence
    
    Visit Occurrence
  - Health Economics
    
    Health Economics
    
    Cost
    
    Cost
    
    Payer Plan Period
    
    Payer Plan Period
  - Health System
    
    Health System
    
    Care Site
    
    Care Site
    
    Location
    
    Location
    
    Provider
    
    Provider
  - Other
    Other
    
    Metadata
    
    Metadata
    
    Results
    
    Results
  - Vocabularies
    
    Vocabularies
- When to Use OMOP
  When to Use OMOP
Project and Product Management
Project and Product Management
- DevOps Philosophy
  DevOps Philosophy
- LLM Use Disclosure
  LLM Use Disclosure
- Product Roadmap
  Product Roadmap
  - Detailed Product Roadmap
Support
Support
- Access Requests
  Access Requests
  - ATLAS
    
    ATLAS
  - Databases
    
    Databases
Training
Training
- Emory
  Emory
  - ATLAS
    
    ATLAS
  - General Session Tools and Tips
    
    General Session Tools and Tips
  - R
    
    R
  - SQL
    
    SQL
    
    Query Library
    
    Query Library
- External Educational Resources
  External Educational Resources
  - OHDSI General
    
    OHDSI General

Extract, Load, Transform (ELT)

Emory's OMOP pipeline follows an ELT pattern — data is extracted from source systems (Epic, CDW), loaded into a staging area, and then transformed into the OMOP CDM using DBT (Data Build Tool).

Architecture

Component	Role
Source systems	Epic Clarity, CDW — the raw clinical data
DBT	Transforms raw data into OMOP CDM tables, generates documentation, and runs data quality tests
Apache Airflow	Orchestrates scheduled model runs and manages pipeline dependencies
Amazon Redshift	The final OMOP data lake where researchers query data

Documentation

ETL documentation is generated continuously from the DBT project itself — every model, column description, and test result is auto-documented as part of each pipeline run.

Emory Enterprise OMOP DBT Documentation

Versioning

The pipeline implements a DataOps versioning paradigm (see Data Quality Design) where code, data, and subsamples are each versioned and tracked within the documentation and test result tracking system. This ensures reproducibility and transparency across the ETL process.

Data Quality Design — the DataOps framework behind our testing approach
Data Quality Results — current test pass/fail status per table
Vocabulary Mapping Coverage — mapping completeness across CVB vocabulary projects