Multimedia Papers

Multimedia Papers

152 Photos and videos

Tweets

Multimedia Papers @MultimediaPaper

Jun 11

Design and Implementation of a Real-time Multi-site Immersive Learning System Using Photon Fusion Iwai Wataru, Duc V. Nguyen arxiv.org/abs/2606.10325 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙷𝙲]

Design and Implementation of a Real-time Multi-site Immersive...

In this paper, we develop a Virtual Reality-based immersive learning environment that allows teachers to conduct a lesson in a virtual space using Photon Fusion. The proposed system allows...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 9

LangRetrieval: Language-Guided Self-Evolving Satellite-to-Radar Retrieval via CSI-Driven Reward Chunlei Shi, Junming Hou, Yi-Lin Wei, Jiong Wang, Yecheng Zhang, Yichao Dong, Wenqi Ren, … arxiv.org/abs/2606.09486 [𝚌𝚜.𝙼𝙼] 💬Submitted to IEEE Transactions on Image Processing

LangRetrieval: Language-Guided Self-Evolving Satellite-to-Radar...

Satellite-to-radar (S2R) retrieval estimates ground radar precipitation from geostationary satellite observations, providing a critical solution for precipitation monitoring in radar-sparse...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 9

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang arxiv.org/abs/2606.09331 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙰𝙸 𝚌𝚜.𝙻𝙶]

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal...

Omni-modal retrieval promises a single embedding space for text, image, video, document, and audio inputs, but building such a unified retriever is difficult since these modalities differ in data...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

LLMCodec: Adapting Video Codecs for Efficient Weight Compression of Large Language Models Rui Wang, Yan Zhao, Li Song, Zhengxue Cheng arxiv.org/abs/2606.05861 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙰𝙸] 💬Submitted to IEEE BMSB 2026

LLMCodec: Adapting Video Codecs for Efficient Weight Compression...

The rapid development of large language models(LLMs) has led to remarkable advances in natural language processing. However, the increasing scale of these models introduces substantial challenges...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval Arghya Pal, Sailaja Rajanala arxiv.org/abs/2606.05812 [𝚌𝚜.𝙼𝙼 𝚎𝚎𝚜𝚜.𝙰𝚂]

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval

Text-to-audio retrieval has made significant progress with shared embedding models such as CLAP and Pengi, yet they often struggle with fine-grained semantic alignment due to the inherent modality...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

UNIVID: Unified Vision-Language Model for Video Moderation Kejuan Yang, Yizhuo Zhang, Mingyuan Du, Yue Zhang, Dixin Zheng, Kaili Zhao, Yang Xiao, Hanzhong Liang, Kenan Xiao arxiv.org/abs/2606.05748 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙰𝙸 𝚌𝚜.𝙲𝙻] 💬Accepted to ACL 2026 Industry Track

UNIVID: Unified Vision-Language Model for Video Moderation

Global-scale video moderation faces a dual challenge: the need for fine-grained multi-modal reasoning and the demand for interpretable outputs to support downstream enforcement. Traditional...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis Bin Wen, Tien-Ping Tan arxiv.org/abs/2606.05713 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝚂𝙳 𝚎𝚎𝚜𝚜.𝙰𝚂]

Beyond Generative Decoding: Discriminative Hidden-State Readout...

Multimodal sentiment analysis (MSA) infers human affect from language, acoustic, and visual signals. Recent methods increasingly adapt large multimodal models (LMMs) via generative readout:...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

GS-NFS: Bandwidth-adaptive Streaming of Dynamic Gaussian Splats and Point Clouds Rajrup Ghosh, Haodong Wang, Haoran Hong, Eduardo Pavez, Amartya Chaudhuri, Weiwu Pang, Harsha V. Madhyastha, Antonio Ortega, … arxiv.org/abs/2606.05650 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝙶𝚁 𝚌𝚜.𝙽𝙸]

GS-NFS: Bandwidth-adaptive Streaming of Dynamic Gaussian Splats...

Dynamic 3D Gaussian Splatting (3DGS) holds great promise as a 3D video streaming technology since it can represent complex 3D scenes with high fidelity. In this approach, every frame in a 3D video...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation Yuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, … arxiv.org/abs/2606.04527 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝙶𝚁]

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite...

We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that employs a learnable evolving memory to dynamically filter, abstract, and compress...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 5

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, … arxiv.org/abs/2606.04205 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙰𝙸 𝚌𝚜.𝙲𝙻 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝙻𝙶 𝚌𝚜.𝚂𝙳]

DetectZoo: A Unified Toolkit for AI-Generated Content Detection...

The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text,...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 3

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, … arxiv.org/abs/2606.03614 [𝚌𝚜.𝙼𝙼]

OmniHalluc-L: Counterfactual Benchmarking and...

Long-video Omni assistants often fail not by inventing content, but by misbinding real evidence: they hear the right utterance and see the right event, yet attach it to the wrong speaker, moment,...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 3

Inference-Time Scaling for Joint Audio-Video Generation Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung arxiv.org/abs/2606.03183 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝚂𝙳 𝚎𝚎𝚜𝚜.𝙰𝚂] 💬Accepted by Transactions on Machine Learning Research (TMLR)

Inference-Time Scaling for Joint Audio-Video Generation

Joint audio-video generation aims to synthesize realistic audio-video pairs that are both semantically aligned with text prompts and precisely synchronized. While existing joint audio-video...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 2

TimeLogic Challenge @ CVPR 2026: Strong MLLMs Meet Evidence-Seeking Agents for Temporal-Logic Video Question Answering Zhaoyang Xu, Xusheng He, Wei Liu, Zhenyang Li, Jianlong Wu arxiv.org/abs/2606.01631 [𝚌𝚜.𝙼𝙼]

TimeLogic Challenge @ CVPR 2026: Strong MLLMs Meet...

Temporal-logic video question answering requires a model to reason about when actions occur relative to one another, such as before, after, until, since, overlap, and multi-event chains, rather...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 1

A Pilot Study on Curator-Guided Multilingual Art Description for Blind and Low-Vision Audiences with Small Vision-Language Models Iosif Tsangko, Andreas Triantafyllopoulos, George Margetis, … arxiv.org/abs/2605.31080 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙰𝙸 𝚌𝚜.𝙲𝙻 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝙷𝙲]

A Pilot Study on Curator-Guided Multilingual Art Description for...

Blind and low-vision (BLV) audiences remain underserved by visual art descriptions, particularly across languages and in museum settings where privacy and intellectual-property constraints may...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

Jun 1

Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis Guangyuan Dong, Ziwei Hong, Shenghao Liu, Chenyu Wu, Yuanyuan Fang, Zihao Li, Xudong Zhang, Bingchen Liu, Yuchen Zhang, Haitao Ding, … arxiv.org/abs/2605.30994 [𝚌𝚜.𝙼𝙼]

Dynamic Interaction-Aware and Causality-Disentangled Framework for...

Although Multimodal Sentiment Analysis (MSA) effectively leverages rich information from language, visual, and acoustic modalities, existing methods still face two core challenges: 1) static...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

May 29

Unveiling the Visual Counting Bottleneck in Vision-Language Models Xingzhou Pang, Yifan Hou, Junling Wang, Mrinmaya Sachan arxiv.org/abs/2605.30170 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝙲𝚅 𝚌𝚜.𝙻𝙶] 💬ICML 2026

Unveiling the Visual Counting Bottleneck in Vision-Language Models

While Large Vision-Language Models (VLMs) excel at interpolation, they suffer catastrophic failures in systematic generalization, most notably in visual counting. In this work, we investigate this...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

May 29

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition Zhaoyan Pan, Xiangdong Li, Wenke Wu, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang arxiv.org/abs/2605.29590 [𝚌𝚜.𝙼𝙼]

State-Anchored Complete-View Distillation for Robust...

Conversational multimodal emotion recognition (MER) requires reliable prediction when language, acoustic, or visual observations are missing or unreliable. Many missing-modality methods...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

May 27

Can We Hear from Events? Generating Speech from Event Camera Jingping Fang, Lin Chen, Chenyang Xu, Tong Zhao, Weidong Cai, Xiaoming Chen arxiv.org/abs/2605.26672 [𝚌𝚜.𝙼𝙼 𝚌𝚜.𝚂𝙳]

Can We Hear from Events? Generating Speech from Event Camera

Traditional RGB-based speech generation faces Temporal Granularity Mismatch since fixed camera exposure times inevitably blur the high-frequency articulatory transients essential for rendering...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

May 27

Reproducibility Companion Paper: Swarical: An Integrated Hierarchical Approach to Localizing Flying Light Specks Hamed Alimohammadzadeh, Shahram Ghandeharizadeh, Federico Cunico, Joshua Springer arxiv.org/abs/2605.26313 [𝚌𝚜.𝙼𝙼]

Reproducibility Companion Paper: Swarical: An Integrated...

This companion paper provides artifacts and instructions on replicating the experiments in the ACM Multimedia 2024 paper entitled "Swarical: An Integrated Hierarchical Approach to Localizing...

arxiv.org

Multimedia Papers

Multimedia Papers @MultimediaPaper

May 25

Swarical: An Integrated Hierarchical Approach to Localizing Flying Light Specks Hamed Alimohammadzadeh, Shahram Ghandeharizadeh arxiv.org/abs/2605.23774 [𝚌𝚜.𝙼𝙼] 💬Code: github.com/flyinglightspeck/….

Swarical: An Integrated Hierarchical Approach to Localizing Flying...

Swarical, a Swarm-based hierarchical localization technique, enables miniature drones, known as Flying Light Specks (FLSs), to accurately and efficiently localize and illuminate complex 2D and 3D...

arxiv.org