quantization

See matching models with benchmark scores and pricing.

Definition

Quantization reduces LLM precision by mapping high-bit weights and activations (e.g., FP16) to lower-bit representations (e.g., INT8 or INT4), minimizing memory footprint and inference latency. Techniques like post-training quantization preserve accuracy by calibrating rounding errors, enabling deployment on resource-constrained hardware.

Models Mentioning quantization(12)

Holo3.1-35B-A3B2026-06 CoBuddy2026-05 GLM-5V-Turbo2026-04 Nemotron 3 Nano2025-12 Nous Capybara 34B2024-10 Apple On-Device2024-06 GLM-4-Flash2024-06 XuanYuan 70B2024-02 WizardCoder 33B2024-01 WizardCoder Python 34B2024-01 WizardCoder Python 7B2024-01 GLM-130B2024-01