CogVLM

Rodeszones
Detección de objetos

Modelo generalista cuantificado con bitsandbytes con una precisión de 4 bits. CogVLM es un poderoso modelo de lenguaje visual (VLM) de código abierto. CogVLM-17B tiene 10 mil millones de parámetros de visión y 7 mil millones de parámetros de lenguaje. CogVLM-17B logra un rendimiento de vanguardia en 10 benchmarks clásicos de modalidad cruzada, incluyendo NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA y TDIUC, y ocupa el segundo lugar en VQAv2, OKVQA, TextVQA, COCO captioning, etc., superando o igualando PaLI-X 55B.

Como usar

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, LlamaTokenizer

model_path = "'local/model/folder/path/here' or 'Rodeszones/CogVLM-grounding-generalist-hf-quant4'"

tokenizer = LlamaTokenizer.from_pretrained('lmsys/vicuna-7b-v1.5')
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True
).eval()

# ejemplo de chat
query = 'Can you provide a description of the image and include the coordinates [[x0,y0,x1,y1]] for each mentioned object?'
image = Image.open("your/image/path/here").convert('RGB')
inputs = model.build_conversation_input_ids(tokenizer, query=query, history=[], images=[image]) # modo chat
inputs = {
'input_ids': inputs['input_ids'].unsqueeze(0).to('cuda'),
'token_type_ids': inputs['token_type_ids'].unsqueeze(0).to('cuda'),
'attention_mask': inputs['attention_mask'].unsqueeze(0).to('cuda'),
'images': [[inputs['images'][0].to('cuda').to(torch.bfloat16)]],
}
gen_kwargs = {"max_length": 2048, "do_sample": False}

with torch.no_grad():
outputs = model.generate(**inputs, **gen_kwargs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(tokenizer.decode(outputs[0]))

# ejemplo de salida
# una habitación con una escalera [[378,107,636,998]] y una toalla azul y blanca [[073,000,346,905]].
# NOTA: Los cuadrados del modelo tienen dimensiones de 1000 por 1000, lo cual es importante considerar.

Funcionalidades

Modelo generalista de lenguaje visual
Cuantificado con bitsandbytes con una precisión de 4 bits
10 mil millones de parámetros de visión y 7 mil millones de parámetros de lenguaje
Rendimiento de vanguardia en 10 benchmarks clásicos de modalidad cruzada

Casos de uso

Detección de objetos
Generación de texto
Captioning de imágenes
Respuestas a preguntas visuales