activeArena

Chatbot Arena

Metric: Elo Rating (higher is better)Introduced: 2023

Crowdsourced human preference leaderboard using pairwise blind comparisons of LLM responses. Operated by LMSYS/UC Berkeley; rebranded and moved to lmarena.ai in 2024. High benchmark score alone doesn't make a model the right pick — weigh it against pricing, API availability, and release date.

Models ranked

tracked on this benchmark

Score band

1503.0 – 1210.0

best → lowest tracked

Snapshot trend

-38.00

May 21 → Jul 3 · 1 models

Leaderboard

Tracked models ranked by Elo Rating (higher is better).

Compare candidates

#Model variant and provenanceRelative to leaderScore

Claude Opus 4.7

Version: ThinkingHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1503.0

Claude Opus 4.6

Version: ThinkingHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1501.0

Gemini 3.1 Pro Preview

Version: Not recordedHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1493.0

Muse Spark

Version: Arena EloHarness: Not recordedEvaluator: Not recordedObserved: May 5, 2026Confidence: Not recordedSource

Notes: Confidence: high. DAT-3780 weekly best-of refresh: Arena snapshot placed Muse Spark at 1491 Elo.

1491.0

GPT-5.5

Version: HighHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1488.0

Gemini 3 Pro

Version: Not recordedHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1486.0

GPT-5.4

Version: HighHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1479.0

ERNIE 5.1

Version: Arena EloHarness: Not recordedEvaluator: Not recordedObserved: May 12, 2026Confidence: Not recordedSource

Notes: Confidence: high. DAT-4172 May 12 /best/ refresh; ERNIE release notes and Arena snapshot placed ERNIE 5.1 around 1476 Elo.

1476.0

Qwen3.7-Max

Version: Arena EloHarness: Not recordedEvaluator: Not recordedObserved: May 21, 2026Confidence: Not recordedSource

Notes: DAT-4735 handoff reported Qwen3.7-Max-Preview on Arena AI text leaderboard with scores varying 1475-1489 across sources; using the conservative 1475 value from the datapack.

1475.0

GLM-5.1

Version: text (June 2026)Harness: Not recordedEvaluator: Not recordedObserved: Jun 16, 2026Confidence: Not recordedSource

1475.0

Gemini 3 Flash

Version: Not recordedHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1467.0

Claude Opus 4.5

Version: Thinking 32KHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1466.0

Grok 4.1

Version: ThinkingHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1464.0

Kimi K2.6

Version: Not recordedHarness: Not recordedEvaluator: Not recordedObserved: May 17, 2026Confidence: Not recordedSource

1462.0

Claude Sonnet 4.6

Version: Not recordedHarness: Not recordedEvaluator: Not recordedObserved: Apr 28, 2026Confidence: Not recordedSource

1459.0

DeepSeek V4 Pro

Version: text (June 2026)Harness: Not recordedEvaluator: Not recordedObserved: Jun 16, 2026Confidence: Not recordedSource

1456.0

DeepSeek V4 Flash

Version: LMArena Chatbot Arena text leaderboard Elo, deepseek-v4-flash-thinkingHarness: Not recordedEvaluator: Not recordedObserved: Jul 3, 2026Confidence: Not recordedSource

1437.0

Gemini 3.1 Flash-Lite

Version: Arena EloHarness: Not recordedEvaluator: Not recordedObserved: May 12, 2026Confidence: Not recordedSource

Notes: Confidence: high. DAT-4172 May 12 /best/ refresh; official Google launch post reported Arena Elo 1432.

1432.0