Skip to content

Miljan Vukadinovic

LLM Evaluation Pipeline

LLM Evaluation Pipeline

Overview

Built a pipeline to systematically evaluate LLM outputs for quality, consistency, and correctness.

Responsibilities

Designed evaluation metrics
Automated test case generation
Compared prompt strategies

Approach

Prompt A/B testing
Output scoring
Regression testing

Pipeline

flowchart LR
    A[Test Inputs] --> B[Prompt Variants]
    B --> C[LLM Outputs]
    C --> D[Evaluation Metrics]
    D --> E[Performance Report]

Tech

Python · OpenAI

Impact

Improved reliability of LLM systems
Enabled systematic prompt optimization
Reduced production risks