Geralmente, algoritmos de acompanhamento musical em tempo real utilizam diretamente uma representação simbólica da partitura ou uma versão sintetizada da mesma como referência para o processo de alinhamento online. Neste artigo nós apresentamos uma abordagem diferente. Primeiramente, diferentes performances da peça em questão são coletadas e alinhadas (offline) à representação simbólica. Então, múltiplas instâncias do algoritmo de acompanhamento em tempo real (cada uma usando uma performance diferente como referência) são usadas para seguir a performance ao vivo e suas saídas são combinadas para gerar a posição atual na partitura. Como a avaliação mostra, essa estratégia aumenta tanto a robustez quando a precisão, especialmente em peças que são geralmente difíceis de acompanhar (e.g. peças com mudanças extremas e abruptas de tempo ou peças orquestrais com algo grau de polifonia). Finalmente, nós descrevemos uma aplicação prática, onde esse algoritmo de acompanhamento musical foi usado para acompanhar uma orquestra famosa mundialmente em uma sala de concerto a fim de mostrar conteúdo visual sincronizado (a partitura, textos explicativos e vídeos) para a audiência.
Será apresentado um sistema para aprender características do áudio automaticamente de um maneira não-supervisionada. O método primeiro aprende um dicionário super-completo o qual pode ser usado para decompor esparsamente espectrogramas espaçados logaritmicamente. Em seguida, é treinado um codificador eficiente que mapeia rapidamente novas entradas para aproximações de suas representações esparsas usando o dicionário aprendido. Isto evita custosos procedimentos iterativos normalmente exigidos para a inferência de códigos esparsos. Estes códigos esparsos são utilizados como entradas para uma Máquina de Suporte Vetorial linear (Support Vector Machine - SVM). Este sistema atinge 83.4% de acurácia ao predizer gêneros musicais no banco de dados GTZAN, o que é competitivo com abordagens empregadas atualmente. Além disso, o uso de um classificador linear simples combinado com um sistema eficiente de extração de características permite que a abordagem seja escalável em bancos de dados grandes.
Detalharemos formas de capturar estruturas repetitivas em uma gravação musical. Este tema está relacionado com a sumarização de áudio (audio thumbnailing) que tem como meta minimizar a duração de músicas mantendo características desejadas pela aplicação.
Mostraremos exemplos com matrizes de aptidão para ilustrar o funcionamento de uma técnica que captura estruturas repetitivas com base na precisão e na cobertura de segmentos da música em cima de matrizes de auto-similaridade (self-similarity matrices).
Este seminário é baseado no artigo premiado no ISMIR de 2011, A SEGMENT-BASED FITNESS MEASURE FOR CAPTURING REPETITIVE STRUCTURES OF MUSIC RECORDINGS de Meinard Müller, Peter Grosche, Nanzhu Jiang.
A maioria dos features usado em MIR (music information retrieval) são inspirados por trabalhos de reconhecimento de fala/voz e são variações do espectrograma. Recentemente, representações esparsas e relativas ao tempo receberam muita atenção. Essas representações são eficazes e evitam o trade-off entre tempo e frequência na transformação de Fourier. Mas pouco trabalho foi conduzido com streams de música. Esse trabalho explora esses features no contexto de sinais musicais, com foco em exemplos de músicas reais como entrada para a apredizagem supervisionada.