个人资料
登录LM Studio Hub
主页
模型目录
文档
博客
下载
职业生涯
LM Studio 企业版
隐私政策
使用条款
1
5.9K 下载量
Qwen2.5 系列的 7B 视觉语言模型 (VLM)
视觉输入
最后更新 27 天前
Qwen2.5-VL-7B-Instruct 是一款视觉语言模型,可处理图像、文本和视频,支持结构化输出和视觉定位。它能够分析图表、图形和布局,并能对长视频序列进行时间推理。
该模型旨在用于文档分析、事件检测和从视觉内容中提取结构化数据。输出包括边界框、点和结构化 JSON 数据。
此模型使用的底层模型文件
基于
GGUF
当您下载此模型时,LM Studio 会选择最适合您机器的来源(您可以覆盖此设置)
此模型包含的自定义配置选项