Audio Visual Training Online

Audio-Visual Target Speaker Extraction With Selective Auditory Attention

Abstract: Audio-visual target speaker extraction (AV-TSE) aims to extract the specific person's speech from the audio mixture given auxiliary visual cues. Previous methods usually search for the ...

IEEE

MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations

Abstract: Despite significant progress in Vision-Language Pre-training (VLP), current approaches predominantly emphasize feature extraction and cross-modal comprehension, with limited attention to ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

Audio-Visual Target Speaker Extraction With Selective Auditory Attention

MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations

Trending now