Qwen3.5 VL 7B

Multimodal

About

Compact multimodal vision-language model supporting image and text understanding with 128K context.

Capabilities

VisionMultimodalReasoningFunction CallingTool UseJSON ModeCode Execution

Rankings

Best Open Source LLMs Best Multimodal / Vision LLMs Best Small Language Models (SLMs)Cheapest LLM APIs

Specifications

FamilyQwen3.5 VL

Released2026-01-15

Parameters7B

Context128k

Specializationvision

Created by

AI research institute of Alibaba Group.

Hangzhou, Zhejiang, China

Founded 2009