Sistemas personalizados de recomendação de música operam geralmente recomendando itens para um determinado usuário de acordo com seus dados históricos de escuta. Essa abordagem porém apresenta um caráter guloso a longo prazo pois recomenda itens mais consumidos com maior frequência e deixa de explorar novas possibilidades.
Nesse seminário apresentamos uma estratégia que procura amenizar esse problema balanceando segurança (exploitation) e novidade (exploration) no ato da recomendação. O sistema de recomendação é comparado a um conjunto de máquinas de caça níquel em um problema conhecido como multi-armed bandit da área de aprendizagem reforçada. Alguns resultados práticos extraídos da literatura são apresentados como tendo sido bem sucedidos em situações de recomendação de longo prazo e em situações de novos itens inseridos na base de dados.