lcybuaa/Text2Earth

lcybuaa
Texto a imagen

Text2Earth es un modelo de generación texto-a-imagen para teledetección que produce imágenes de observación terrestre a partir de descripciones en lenguaje natural. Está basado en Diffusers/Safetensors, usa una canalización personalizada Text2EarthDiffusionPipeline y se asocia al artículo de 2025 sobre generación de imágenes de teledetección impulsada por texto con un conjunto de datos global.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# Cambia a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "lcybuaa/Text2Earth",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo con StableDiffusionPipeline y EulerDiscreteScheduler:

pip install diffusers transformers accelerate scipy safetensors
import torch
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "lcybuaa/Text2Earth"

scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    scheduler=scheduler,
    custom_pipeline="pipeline_text2earth_diffusion",
    safety_checker=None
)
pipe = pipe.to("cuda")

prompt = "Seven green circular farmlands are neatly arranged on the ground"
image = pipe(
    prompt,
    height=256,
    width=256,
    num_inference_steps=50,
    guidance_scale=4.0
).images[0]
image.save("circular.png")

Funcionalidades

Generación de imágenes de teledetección a partir de prompts textuales.
Compatible con la biblioteca Diffusers de Hugging Face.
Modelo publicado en formato Safetensors.
Incluye canalización personalizada `pipeline_text2earth_diffusion` / `Text2EarthDiffusionPipeline`.
Puede ejecutarse localmente con CUDA y precisión `float16` o `bfloat16`.
Permite configurar tamaño de imagen, número de pasos de inferencia y escala de guía.
Licencia Apache 2.0.

Casos de uso

Crear imágenes sintéticas de teledetección desde descripciones como patrones agrícolas, paisajes terrestres o escenas vistas desde satélite.
Prototipar datasets visuales para investigación en observación de la Tierra.
Explorar generación controlada por texto en dominios geoespaciales y de sensado remoto.
Generar ejemplos visuales para experimentos académicos relacionados con modelos fundacionales de teledetección.