Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Crowdsourcing с механической поддержкой

Machinelearner
October 15, 2020
35

Crowdsourcing с механической поддержкой

Machinelearner

October 15, 2020
Tweet

Transcript

  1. Оценки в ML Коллективный бессознательный асессор (КБА) Как обуздать КБА

    Экзоскелет для КБА Модель как эксперт Выводы 2
  2. Свойства контура оценки • Несмещенность по конечной метрике • Достаточная

    разрешающая способность • Актуальность по данным и по оценке 5
  3. Свойства контура оценки • Несмещенность по конечной метрике • Достаточная

    разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок 5
  4. Свойства контура оценки • Несмещенность по конечной метрике • Достаточная

    разрешающая способность • Актуальность по данным и по оценке ⇒ фиксированный “достаточный” объем оценок ⇒ готовы вкладываться в новое знание 5
  5. Свойства контура обучения • Больше данных! • Пока растет метрика

    – все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем 6
  6. Свойства контура обучения • Больше данных! • Пока растет метрика

    – все приемы хороши • Не подглядывать ⇒ Балансируем стоимость оценок и их объем ⇒ Обучение определяет оценку 6
  7. Коллективный бессознательный асессор Почему я не говорю про отдельных экспертов:

    1. Мы редко оцениваем работу отдельного эксперта 2. Эксперты меняются во времени 3. Они общаются между собой! ⇒ В crowdsourcing’е наша задача не научить отдельных людей, а создать такие правила игры, которые приносят результат на доступной категории экспертов 7
  8. Свойства КБА II Эксперты разные, и их цели не всегда

    совпадают с целями исследователя 10
  9. Ответы получены ручным способом, или вы про навык скорочтения не

    слышали? в общем, так или иначе, напишите конкретно по каждому заданию, что нет? по какой причине в каждом задании отклонение? или прокляну за такое приход к неправильному выводу. надеюсь на понимание и ответственность Anonymous Toloker 13
  10. Свойства КБА IV Эксперты – сообщество, структура которого и общение

    в котором может существенно повлиять на результат 14
  11. Что мы хотим оптимизировать Ограничимся контуром обучения • Цена •

    Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” 16
  12. Что мы хотим оптимизировать Ограничимся контуром обучения • Цена •

    Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” ⇒ Эффективность конечной формулы оптимизации определяется ростом качества модели 16
  13. Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции

    и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы 17
  14. Какие есть средства оптимизации • Оптимизация задания • Доработка инструкции

    и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы • Добавление роботов в оценку 17
  15. Основные инструменты контроля качества 1. Обучение и контрольные задания 2.

    Honeypot’ы (ручные, автоматические) 3. Перекрытие и динамическое перекрытие 18
  16. Немного о силе перекрытий • 1000 заданий • 0.01$ за

    задание • Эксперт говорит правду в 60% случаев 19
  17. Ground truth inference Предсказать по набору решений какие из них

    истинны – нормальная математическая задачка, которую можно решать. ˆ Y = arg max Y ={li } i log P(li |Ji = {ji1, . . . , jiki }) Где j = (y, a, c), l, y ∈ Y – шкала оценок, a ∈ A –множество экспертов, c обобщенный контекст оценки. 20
  18. Есть много способов решать эту задачу Yudian Zheng et al.

    Truth Inference in Crowdsourcing: Is the Problem Solved? VLDB 2017 21
  19. Немного выводов из тестирования 1. Перекрытие+большинство достаточно, если перекрытий >20

    2. Dawid & Skene (1979) работает в большинстве остальных случаев 3. Остальные методы выступают лишь в узких категориях 22
  20. D&S в двух словах P(l|J = {ju}k 1 ) ∼

    P(l|J, ˆ z) = k u=1 ˆ zI{y=y(ju)} a(ju)y(ju)l ˆ z = arg max z log   Y m i=1 y∈Y P(yi |Ji , z)   23
  21. Пару слов о динамическом перекрытии • Аккуратное моделирование сложных случаев

    с увеличением перекрытия до значений > 20 позволяет не думать о GTI • Динамическое перекрытие позволяет понять разброс мнения и получить не точечную оценку, а “распределение” 24
  22. Learning from Crowds Raykar at. al. Совместим в одной оптимизации

    железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 25
  23. Параллельное моделирование оценки Raykar at. al. Совместим в одной оптимизации

    железного эксперта и живых в бинарной классификации: P(l = 0|J = {ju}k 1 ) = k u=1 zI{ju=0} u (1 − zu )I{ju=1} P(l = 1|J = {ju}k 1 ) = k u=1 zI{ju=1} u (1 − zu )I{ju=0} P(l|J, w) = P(l = 1|J)σ(−wT x) + P(l = 0|J)σ(wT x) 26
  24. Почему вообще можно использовать модель в разметке? Проблема в систематической

    ошибке, которую дает нам модель. Тем не менее: • Мы свободно используем модель только для разметки в контуре обучения • В контуре оценки необходимо контролировать уровень смещения или вообще исключить применение моделей 27
  25. Характеристики эксперта-модели + Не устает (не меняет характеристик со временем)

    + Заинтересована в успехе исследователя :) + Относительно бесплатна – Плохо реагирует на изменения в данных – Систематическая оценка, которая зависит от модели 28
  26. Для чего мы можем использовать такого эксперта • Контроль за

    состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning 29
  27. Для чего мы можем использовать такого эксперта • Контроль за

    состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning ⇒ можем “честно” сравнить с человеками 29
  28. На вынос • Чтобы ослабить требования к оценкам можно разделить

    разметку на два контура • Эксперты – социальное явление и нужно учитывать это их свойства • Существуют модели обучения, которые позволяют оценивать качество асессоров как с помощью данных так и нет • В контуре обучения (и, если акуратно, то в оценке) можно использовать робота 30