Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Speaker diarization

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Speaker diarization

Avatar for Machinelearner

Machinelearner

April 07, 2021
Tweet

More Decks by Machinelearner

Other Decks in Education

Transcript

  1. Постановки задачи • С overlap • C Automatic Speech Recognition

    • Online / offline • С видео • Single/multi channel • Мало шума: встречи / телефонные разговоры • Много шума: новостные репортажи 4 / 32
  2. Применения • Транскрипция встреч -> выделение тем • Conversational Interaction

    Analysis, Behavior modelling • Поиск по аудио данным • Распознавание голосовых команд 5 / 32
  3. Метрики для оценки качества диаризации • Для diarization + ASR:

    ◦ WDER = количество обрезаний слов ◦ sa-WER • Для online: latency 10 / 32
  4. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap CALLHOME 2001 Телефонные разговоры ASR + diarization + доп. информация Вручную 2-7 20ч Есть и без и с AMI 2006 Рабочие встречи дизайнеров ASR + diarization + доп. Информация + видео Transcription: вручную Diarization: автоматически 3-5 100ч есть ICSI 2003 Встречи в университете ASR + diarization + доп. информация Aвтоматически + проверка 3-10 72ч есть LibriCSS 2020 Записи из LibriSpeech записываются в комнате ASR + diarization По данным из LibriSpeech 8 10ч 0-40% 12 / 32
  5. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap Метрики VoxConverse 2020 Видео youtube, много шума Diarization + видео По видео + проверка 1-21 74ч 0-30% DER, JER + 0.25 collar Rich Transcription 2009 Встречи ASR + diarization + видео Вручную есть DER, JER +0.25 collar, latency CHiME-5 2020 Домашние разговоры ASR + diarization + доп. информация Вручную 4 50ч есть DER, JER DIHARD- 1,2,3 2018-2021 Много доменов: встречи, аудиокниги, youtube, ... Diarization + segmentation Вручную 1-8 24ч 10% DER, JER 13 / 32
  6. Speech Activity Detection • Из аудио извлекаются Mel-Frequency Cepstral Coefficients

    (MFCC) -> классификация • Gaussian Mixture Models, Hidden Markov Models • Очень важно для diarization 18 / 32
  7. • DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73

    • VoxConverse: ◦ uniform + Res2Net + AHC + DOVER, DER 6.23 JER 21.52 ◦ uniform + ResNet152 + AHC + VB-HMM DER 8.12 JER 18.35 Подходы к решению задачи диаризации 24 / 32
  8. Joint diarization: EEND • CALLHOME 10.76 DER+collar • c overlap,

    offline (но есть модификации) 25 / 32
  9. • C overlap, offline • Диалоги двух людей, DER 24.63

    (23 для x-vector+AHC) • sa-WER 40.03 как с oracle embeddings Joint diarization + ASR 29 / 32