Back to Leaderboard

Kimi K2.5

Moonshot AI

Rank #3 of 8 models

85.6%

+0.7 vs avg

Coverage

78.6%-0.3 vs avg

Validity

92.7%+1.7 vs avg

Local Score

86.1%+1.5 vs avg

Cross-File

85.0%-0.7 vs avg

Score Distribution

Performance by Language

Category Comparison

Local Logic

86.1%

Cross-File

85.0%

Judge Analysis (Sonnet vs GPT)

Latency (p50 / p90 / p99)

8ms

p50

304.8s

p90

699.7s

p99

GLM-5

6ms

Gemini 2.5 Pro

8ms

Kimi K2.5

8ms

Claude Haiku 4.5

8ms

Gemini 3 Flash

8ms

Claude Sonnet 4.5

10ms

Gemini 3.1 Pro

21ms

GPT-5.2

19.3s

Pass Rate

52.0%

Parse Rate

52.0%

Tests

75

Errors

36

Sample Traces (10 of 39)

View all in Explorer →