Tag: multimodal

Jun 22, 2026

LocateAnything Explained: Parallel Box Decoding and how it makes visual grounding faster and more precise

A review of LocateAnything, an NVIDIA vision-language model that treats each bounding box as one atomic unit and deco...

paperreview deeplearning computervision objectdetection

Feb 09, 2026

Paper Review: PaperBanana: Automating Academic Illustration for AI Scientists

My review of the paper PaperBanana Automating Academic Illustration for AI Scientists

paperreview deeplearning agent vlm

Feb 24, 2025

Paper Review: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Google's upgraded vision-language encoders that add self-supervised learning and online data curation to SigLIP, deli...

paperreview deeplearning transformer cv

Aug 12, 2024

Paper Review: Wolf: Captioning Everything with a World Summarization Framework

My review of the paper Wolf Captioning Everything with a World Summarization Framework

paperreview deeplearning llm vlm

Aug 05, 2024

Paper Review: Diffusion Feedback Helps CLIP See Better

My review of the paper Diffusion Feedback Helps CLIP See Better

paperreview deeplearning clip diffusion

Jul 15, 2024

Paper Review: Unveiling Encoder-Free Vision-Language Models

My review of the paper Unveiling Encoder-Free Vision-Language Models

paperreview deeplearning llm vlm

May 20, 2024

Paper Review: Chameleon: Mixed-Modal Early-Fusion Foundation Models

My review of the paper Chameleon Mixed-Modal Early-Fusion Foundation Models

paperreview deeplearning mllm multimodal

May 13, 2024

Paper Review: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

My review of the paper Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

paperreview deeplearning mllm multimodal

Apr 15, 2024

Paper Review: Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

My review of the paper Ferret-v2 An Improved Baseline for Referring and Grounding with Large Language Models

paperreview deeplearning llm cv

Jan 15, 2024

Paper Review: Ferret: Refer and Ground Anything Anywhere at Any Granularity

My review of the paper Ferret Refer and Ground Anything Anywhere at Any Granularity

paperreview deeplearning llm cv

Jan 08, 2024

Paper Review: DocLLM: A layout-aware generative language model for multimodal document understanding

My review of the paper DocLLM A layout-aware generative language model for multimodal document understanding

paperreview deeplearning llm attention

Oct 19, 2023

Paper Review: PaLI-3 Vision Language Models: Smaller, Faster, Stronger

My review of the paper PaLI-3 Vision Language Models Smaller, Faster, Stronger

paperreview deeplearning llm vlm

Sep 28, 2023

Paper Review: DreamLLM: Synergistic Multimodal Comprehension and Creation

My review of the paper DreamLLM Synergistic Multimodal Comprehension and Creation

paperreview deeplearning llm cv

Jul 27, 2023

Paper Review: Meta-Transformer: A Unified Framework for Multimodal Learning

My review of the paper Meta-Transformer A Unified Framework for Multimodal Learning

paperreview deeplearning nlp transformer

Jul 17, 2023

Paper Review: Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

My review of the paper Scaling Autoregressive Multi-Modal Models Pretraining and Instruction Tuning

paperreview deeplearning cv nlp

Jul 10, 2023

Paper Review: Recognize Anything: A Strong Image Tagging Model

My review of the paper Recognize Anything A Strong Image Tagging Model

paperreview deeplearning cv imagecaptioning

Jun 12, 2023

Paper Review: BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks

My review of the paper BiomedGPT A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, L...

paperreview deeplearning nlp gpt

May 10, 2023

Paper Review: ImageBind: One Embedding Space To Bind Them All

My review of the paper ImageBind One Embedding Space To Bind Them All

paperreview deeplearning nlp cv

Mar 09, 2023

Paper Review: PaLM-E: An Embodied Multimodal Language Model

My review of the paper PaLM-E An Embodied Multimodal Language Model

paperreview deeplearning nlp transformer

Jun 18, 2021

Paper Review: Semi-Autoregressive Transformer for Image Captioning

My review of the paper Semi-Autoregressive Transformer for Image Captioning

paperreview deeplearning imagecaptioning multimodal

May 04, 2021

Paper Review: MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

My review of the paper MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding.

paperreview deeplearning objectdetection multimodal

Jun 14, 2020

Paper Review: VirTex: Learning Visual Representations from Textual Annotations

My review of the paper VirTex Learning Visual Representations from Textual Annotations.

paperreview imagecaptioning cv visual

May 17, 2020

Paper Review: Transformer Reasoning Network for Image-Text Matching and Retrieval

My review of the paper Transformer Reasoning Network for Image-Text Matching and Retrieval.

paperreview transformer cv imagetextmatching