6 171 192

Inui

Norm

https://normxu.github.io/

AI & ML interests

Video Diffusion; Large Language Model; Object Detection; OCR

Recent Activity

liked a dataset about 2 hours ago

wsdwJohn1231/DreamLIP_capion_csv_w_key

liked a dataset about 3 hours ago

Jyuhamdik/RealSyn15M

upvoted a paper about 2 months ago

Revisiting Multimodal Positional Encoding in Vision-Language Models

View all activity

Organizations

Collections 9

View 9 collections

Papers 1

arxiv:2504.07491

models 2

Norm/nougat-latex-base

Image-to-Text • 0.3B • Updated Feb 26, 2024 • 2.63k • 81

Norm/ERNIE-Layout-Pytorch

Updated Nov 14, 2023 • 531 • 16

datasets 0

None public yet

Inui

AI & ML interests

Recent Activity

Organizations

Collections 9

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

MAGVIT: Masked Generative Video Transformer

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Finite Scalar Quantization: VQ-VAE Made Simple

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

MAGVIT: Masked Generative Video Transformer

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Finite Scalar Quantization: VQ-VAE Made Simple

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Papers 1

models 2

Norm/nougat-latex-base

Norm/ERNIE-Layout-Pytorch

datasets 0

Inui

AI & ML interests

Recent Activity

Organizations

Collections 9

Papers 1

models 2 Sort: Recently updated

datasets 0

models 2