Machine Learning sem perda de tempo: aumentando as chances de criar produtos que realmente importam

Machine Learning sem Perda de Tempo Aumentando as chances de
criar produtos que realmente importam

Eduardo Bonet @ef_bonet Pai, Parceiro, TDAH Generalista, com orgulho Senior
ML Engineer & Product Lead - MLOps @ GitLab Essa apresentação é limitada pela minha experiência proﬁssional, e o aqui apresentado é somente uma perspectiva a ser considerada.

A esmagadora maioria das iniciativas de ML morrem no protótipo

Diversos motivos para isso acontecer - Líder empolgado com a
iniciativa sai da empresa - Mudança de prioridades - Insuﬁciência de dados ou dados de má qualidade - Falta de conhecimento das peculiaridades de ML - Projetos fadados ao fracasso por expectativas inalcançáveis - Diferentes objetivos entre praticantes de ML, usuários e líderes

Diversos motivos para isso acontecer - Líder empolgado com a
iniciativa sai da empresa - Mudança de prioridades - Insuﬁciência de dados ou dados de má qualidade - Falta de conhecimento das peculiaridades de ML - Projetos fadados ao fracasso por expectativas inalcançáveis - Diferentes objetivos entre praticantes de ML, usuários e líderes COMUNICAÇÃO

Melhorando a Comunicação Antecipar as perguntas difíceis, para que elas
guiem o desenvolvimento do projeto. Alinhar expectativas com todos envolvidos no projeto. Identiﬁcar projetos fadados a fracassar. Desenvolver o modelo pensando na experiência do usuário.

Machine Learning é um conjunto de algoritmos e modelos estatísticos
usados para extrair informação de dados com um grau de incerteza. Machine Learning é uma ferramenta. O que é Aprendizado de Máquina (ML)?

Quais os problemas que ML resolve bem? Métricas de sucesso
bem deﬁnidas Dados de boa qualidade para o problema em questão A aplicação permite que erros aconteçam Impacto em escala

Tudo começa deﬁnindo SUCESSO

Passo 0: Deﬁnindo bem Sucesso

Passo 0: Deﬁnindo bem Sucesso Imagine o mundo onde o
problema já foi resolvido

problema já foi resolvido Nesse mundo, que mudou na experiência no usuário?

problema já foi resolvido Nesse mundo, que mudou na experiência no usuário? Quais os indicadores que podem ser usados para quantiﬁcar essas mudanças?

problema já foi resolvido Nesse mundo, que mudou na experiência no usuário? Quais os indicadores que podem ser usados para quantiﬁcar essas mudanças? Qual o indicador de sucesso? Quais são os indicadores de validação?

Todo indicador quando vira um objetivo deixa de ser um
bom indicador (Lei de Goodheart) Em adição ao indicador de sucesso, é importante ter outros indicadores de validação

Como as predições vão ser consumidas?

A experiência do usuário vai deﬁnir quais algoritmos ou não
podem ser usados. • É necessário explicar a razão de cada predição? • Em que momento a predição é feita? Quais os dados estão disponíveis no momento da predição? • Qual o tempo de resposta necessário para uma predição? • A predição é feita no aparelho do usuário, ou no servidor, ou em um microcontrolador? ….

Precisa mesmo de Machine Learning?

Ao propor uma solução com ML, lembre-se que Mão de
obra é escassa e cara Colocar um modelo em produção requer arquitetura especializada (Model Registry, Pipelines para transformação de dados e treinamento de modelos, monitoramento de predições, etc) Modelos de Machine Learning tem data de validade: com o tempo as predições vão ﬁcando piores, aumentando o custo de manutenção. Altamente exploratório, difícil de deﬁnir deadlines Difícil colocar a primeira versão online rápido para iterar com o usuário

Que tal começar com uma solução sem ML? Iteração rápida
para descobrir o que o usuário realmente quer Coletar dados rapidamente para criar um modelo melhor Deﬁne melhor os indicadores de sucesso e validação Vira Baseline para a uma futura solução de ML Talvez no ﬁnal das contas ML seja até desnecessário

Consideração: Heurística é Débito Técnico Heurística é o primeiro passo
para implementar ML, mas é uma forma de solução de curto prazo, e diminui a velocidade de iteração ao longo de tempo.

Métricas de modelo nem sempre são boas métricas de negócio

Exemplo: AUC para Classiﬁcação AUC traz uma métrica que avalia
ao longo de todos os cortes. Na realidade, só um corte vai ser escolhido https://www.researchgate.net/figure/Risk- distributions-and-area-under-the-ROC-cur ve-AUC-adapted-from-Janssens-Martens- 35_fig4_336879307

Exemplo: AUC para Classiﬁcação Alternativa: Escolher o retorno onde o
ponto de corte traz o máximo retorno Cada classiﬁcação certa ou errada tem um custo associado (em dinheiro, em experiência de usuário) Qual o corte com melhor custo benefício? Retorno(T) = Custo_TP * TP(T) + Custo_TN * TN(T) - Custo_FP * FP(T) - Custo_FN * FN(T)

Escolher a métrica certa para o modelo exige entender o
problema

Minimum Viable Accuracy MVA é o resultado mínimo, em termos
de métricas de modelo, que o modelo deve obter para alcançar a deﬁnição de sucesso Indicador de Sucesso MVA choro desespero gritaria terapia Requisitos Time de ML Especialistas de Domínio

Exemplo: Melhorar Ofertas para o usuário Passo 1: Deﬁnição de
Sucesso Business consideraria o projeto um sucesso se houvesse um aumento de R$200.000 no retorno mensal

Exemplo: Melhorar Ofertas para o usuário Passo 2: Como é
a experiência de usuário? Como a predição seria acessada? Usuário acessa a página principal, e vê uma série de itens ofertados. Existe limite na oferta de itens? Novos itens são ofertados constantemente Qual o custo do erro? Errar uma predição não traz um custo alto

Exemplo: Sistema de recomendação Passo 3: Qual a situação atual?
- 5000 usuários mensais - 10.000 compras - Compra média de R$70.00 - Cada usuário vê em média 5 produtos - 20.000 visitas mensais

Exemplo: Melhorar Ofertas para o usuário Passo 4: Que métrica
usar? O que importa aqui é recomendar o produto certo. Normalmente, usaria-se MAP@K Número de itens vistos é ﬁxo, então Precisão com 5 itens (P@5) faz mais sentido.

Passo 5: O que é necessário para chegar no sucesso?
Exemplo: Melhorar Ofertas para o usuário

R$200.000 -> 200.000/(70) -> 3000 transações adicionais Exemplo: Melhorar Ofertas para o usuário

R$200.000 -> 200.000/(70) -> 3000 transações adicionais Atualmente 10.000 transações -> Aumento de 30% em acertos Exemplo: Melhorar Ofertas para o usuário

R$200.000 -> 200.000/(70) -> 3000 transações adicionais Atualmente 10.000 transações -> Aumento de 30% em acertos P@5 atual = 10.000 transações / (20.000 visitas x 5 itens) = .1 Exemplo: Melhorar Ofertas para o usuário

R$200.000 -> 200.000/(70) -> 3000 transações adicionais Aumento de 30% em acertos P@5 atual = 10.000 transações / (20.000 visitas x 5 itens) = .1 Exemplo: Melhorar Ofertas para o usuário P@5 de sucesso = .1 x 1.3 = 0.13

É impossível chegar num valor exato para o MVA, basta
chegar em um valor aproximado Normalmente, várias suposições são feitas no cálculo do MVA. Essas suposições devem ser testadas e atualizadas ao longo do tempo Não se apegue ao valor deﬁnido pelo MVA, ele vai mudar com o tempo e conforme ideias vão se cristalizando MVA: Considerações

O MVA não é uma ferramenta para educar o business
sobre Machine Learning (embora auxilie na definição de expectativas), é uma ferramenta para educar o time de Machine Learning sobre o problema eles vão resolver A maior vantagem de explorar o MVA não é o valor em si, mas os processo de criação. Ao definir o MVA, o time precisa trabalhar com o business para definir as métricas, as expectativas, as peculiaridades do sistema. MVA: Considerações

Finalizando Para evitar problemas, procure sempre: Antecipar as perguntas difíceis,
para que elas guiem o desenvolvimento do projeto. Alinhar expectativas com todos envolvidos no projeto. Identiﬁcar projetos fadados a fracassar. Desenvolver o modelo pensando na experiência do usuário.

Recursos Data Science para Negócios [Livro] Machine Learning Engineering, capítulo
2 [Livro gratuito] "Everyone wants to do the model work, not the data work": Data Cascades in High-Stakes AI [Artigo] 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com [Artigo] Seven-steps to set goals and pick metrics for customers [Medium] Google Rules of ML [Website]

Machine Learning sem perda de tempo: aumentand...

Machine Learning sem perda de tempo: aumentando as chances de criar produtos que realmente importam

More Decks by Python Floripa

Other Decks in Technology

Featured

Transcript