deepinfra LLM Benchmarks – Performance & Latency

Provider Snapshot

Models Tracked

Avg Tokens / Second

41.02

Avg Time to First Token (ms)

468.72

Last Updated

May 20, 2026

Key Takeaways

39 deepinfra models are actively benchmarked with 5539 total measurements across 4960 benchmark runs.
qwen-3.5-2b leads the fleet with 200.00 tokens/second, while qwen-3.5-397b-a17b delivers 62.50 tok/s.
Performance varies by 220.0% across the deepinfra model lineup, indicating diverse optimization strategies for different use cases.
Avg time to first token across the fleet is 468.72 ms, showing excellent responsiveness for interactive applications.
The deepinfra model fleet shows varied performance characteristics (95.3% variation coefficient), reflecting diverse model architectures.

Fastest Models

Provider	Model	Avg Toks/Sec	Min	Max	Avg TTF (ms)
deepinfra	qwen-3.5-2b	200.00	44.00	231.00	1320.00
deepinfra	qwen-3.5-0.8b	142.00	32.40	235.00	420.00
deepinfra	qwen-3.5-4b	141.00	35.00	174.00	380.00
deepinfra	qwen-3.5-35b-a3b	79.70	7.96	161.00	340.00
deepinfra	qwen-3.5-122b-a10b	79.20	1.63	115.00	260.00
deepinfra	qwen-3.5-397b-a17b	62.50	4.15	103.00	290.00

All Models

Complete list of all deepinfra models tracked in the benchmark system. Click any model name to view detailed performance data.

Provider	Model	Avg Toks/Sec	Min	Max	Avg TTF (ms)
deepinfra	Seed-2.0-pro	2.17	1.03	3.02	0.00
deepinfra	qwen-2.5-72b	17.90	1.25	33.50	3680.00
deepinfra	Qwen 2.5 Coder 32B	45.80	11.00	67.90	470.00
deepinfra	qwen-3-14b	34.60	3.69	49.50	680.00
deepinfra	qwen-3-235b	12.60	2.22	30.00	2010.00
deepinfra	Qwen3-235B-A22B-Thinking-2507	6.67	0.83	17.40	0.00
deepinfra	Qwen3-Coder-480B-A35B-Instruct-Turbo	26.10	3.93	78.70	0.00
deepinfra	Qwen3-Max	17.50	8.29	20.80	0.00
deepinfra	Qwen3-Max-Thinking	16.70	10.10	20.20	0.00
deepinfra	Qwen3-Next-80B-A3B-Instruct	50.30	4.14	115.00	0.00
deepinfra	qwen-3.5-0.8b	142.00	32.40	235.00	420.00
deepinfra	qwen-3.5-122b-a10b	79.20	1.63	115.00	260.00
deepinfra	qwen-3.5-27b	42.90	11.20	69.00	300.00
deepinfra	qwen-3.5-2b	200.00	44.00	231.00	1320.00
deepinfra	qwen-3.5-35b-a3b	79.70	7.96	161.00	340.00
deepinfra	qwen-3.5-397b-a17b	62.50	4.15	103.00	290.00
deepinfra	qwen-3.5-4b	141.00	35.00	174.00	380.00
deepinfra	Qwen3.6-27B	39.80	4.47	75.90	0.00
deepinfra	DeepSeek-R1-0528	29.50	9.81	56.50	0.00
deepinfra	deepseek-v3.2	10.40	4.14	18.30	0.00
deepinfra	DeepSeek-V4-Pro	21.90	1.60	49.60	0.00
deepinfra	gemini-2.5-flash	34.90	9.14	47.90	0.00
deepinfra	gemma-3-27b-it	20.40	9.61	37.50	460.00
deepinfra	gemma-3-4b-it	35.00	4.50	56.40	490.00
deepinfra	llama-2-70b	23.90	2.53	37.90	530.00
deepinfra	llama-3.2-11b	37.90	16.50	58.20	440.00
deepinfra	llama-3.2-1b	36.10	20.30	48.30	350.00
deepinfra	llama-3.2-3b	36.30	24.70	58.90	350.00
deepinfra	llama-3.2-90b	24.40	7.05	44.30	390.00
deepinfra	llama-3.3-70b	18.00	2.05	32.90	830.00
deepinfra	llama-3-70b	23.60	5.12	38.00	520.00
deepinfra	llama-3-8b	37.60	18.80	62.00	330.00
deepinfra	llama-3.1-405b	15.30	2.34	24.70	1060.00
deepinfra	llama-3.1-70b	21.60	5.30	39.40	590.00
deepinfra	llama-3.1-8b	31.60	3.51	54.40	550.00
deepinfra	devstral-small	36.10	4.50	61.50	700.00
deepinfra	mistral-7b	36.60	11.90	60.60	540.00
deepinfra	Kimi-K2.6	18.20	2.69	54.00	0.00
deepinfra	Llama-3.3-Nemotron-Super-49B-v1.5	33.10	4.65	50.70	0.00