Back to Leaderboard

Gemini 3.1 Pro

Google

Rank #5 of 8 models

84.2%

-0.8 vs avg

Coverage

77.1%-1.8 vs avg

Validity

91.3%+0.3 vs avg

Local Score

87.5%+2.9 vs avg

Cross-File

80.5%-5.2 vs avg

Score Distribution

Performance by Language

Category Comparison

Local Logic

87.5%

Cross-File

80.5%

Judge Analysis (Sonnet vs GPT)

Latency (p50 / p90 / p99)

21ms

p50

287.8s

p90

546.0s

p99

GLM-5

6ms

Gemini 2.5 Pro

8ms

Kimi K2.5

8ms

Claude Haiku 4.5

8ms

Gemini 3 Flash

8ms

Claude Sonnet 4.5

10ms

Gemini 3.1 Pro

21ms

GPT-5.2

19.3s

Pass Rate

28.0%

Parse Rate

28.0%

Tests

75

Errors

54

Sample Traces (10 of 21)

View all in Explorer →