1. Мы редко оцениваем работу отдельного эксперта 2. Эксперты меняются во времени 3. Они общаются между собой! ⇒ В crowdsourcing’е наша задача не научить отдельных людей, а создать такие правила игры, которые приносят результат на доступной категории экспертов 7
слышали? в общем, так или иначе, напишите конкретно по каждому заданию, что нет? по какой причине в каждом задании отклонение? или прокляну за такое приход к неправильному выводу. надеюсь на понимание и ответственность Anonymous Toloker 13
Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” 16
Качество • Скорость Например: “Хочу оптимизировать скорость разметки одной минуты голоса при количестве ошибок не более 10% и скорости более 10ч в день” ⇒ Эффективность конечной формулы оптимизации определяется ростом качества модели 16
и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы 17
и интерфейса • Работа над структурой оценки (e.g. шкалой) • Изменение структуры прецедента (e.g. группировка) • Гетерогенные задания • Привлечение более широкого круга экспертов через контроль качества их работы • Добавление роботов в оценку 17
истинны – нормальная математическая задачка, которую можно решать. ˆ Y = arg max Y ={li } i log P(li |Ji = {ji1, . . . , jiki }) Где j = (y, a, c), l, y ∈ Y – шкала оценок, a ∈ A –множество экспертов, c обобщенный контекст оценки. 20
с увеличением перекрытия до значений > 20 позволяет не думать о GTI • Динамическое перекрытие позволяет понять разброс мнения и получить не точечную оценку, а “распределение” 24
ошибке, которую дает нам модель. Тем не менее: • Мы свободно используем модель только для разметки в контуре обучения • В контуре оценки необходимо контролировать уровень смещения или вообще исключить применение моделей 27
+ Заинтересована в успехе исследователя :) + Относительно бесплатна – Плохо реагирует на изменения в данных – Систематическая оценка, которая зависит от модели 28
состоянием асессоров • Контролируемое динамическое перекрытие • Простые случаи можно только проверять, а не размечать с нуля • Active Learning ⇒ можем “честно” сравнить с человеками 29
разметку на два контура • Эксперты – социальное явление и нужно учитывать это их свойства • Существуют модели обучения, которые позволяют оценивать качество асессоров как с помощью данных так и нет • В контуре обучения (и, если акуратно, то в оценке) можно использовать робота 30