Text Generation - Vision - a wo-datacraft Collection

wo-datacraft 's Collections

Audio Generation

Image Classification

Image Generation

Speech Generation

Speech Recognition

Text Generation - General

Text Generation - Reasoning

Text Generation - Vision

Toolkit - AI Papers

Toolkit - Embeddings

Toolkit - Prompting Papers

Toolkit - Segmentation

Toolkit - Utilities

Video Generation

Text Generation - Vision

updated 27 days ago

google/gemma-4-31B-it

Image-Text-to-Text • 33B • Updated 7 days ago • 9.79M • • 2.63k
google/gemma-4-26B-A4B-it

Image-Text-to-Text • 27B • Updated 7 days ago • 7.73M • • 947
microsoft/Phi-4-reasoning-vision-15B

Image-Text-to-Text • 15B • Updated Mar 18 • 140k • 169
mistralai/Ministral-3-14B-Instruct-2512

Updated Jan 15 • 124k • 285
moonshotai/Kimi-VL-A3B-Thinking-2506

Image-Text-to-Text • 16B • Updated Jan 30 • 9.75k • 357
Qwen/Qwen3.5-9B

Image-Text-to-Text • 10B • Updated Mar 2 • 8.43M • • 1.43k
Qwen/Qwen3.5-27B

Image-Text-to-Text • 28B • Updated 20 days ago • 3.39M • • 971
Qwen/Qwen3.6-35B-A3B

Image-Text-to-Text • 36B • Updated 20 days ago • 4.61M • • 1.76k
zai-org/GLM-OCR

Image-to-Text • Updated 30 days ago • 7.57M • • 1.73k