Este livro ensina a utilizar modelos do Hugging Face para processar arquivos de áudio e imagem. O conteúdo abrange classificação de áudio, transcrição com Whisper, geração de imagens via Stable Diffusion e detecção de objetos em vídeos.
O foco é a aplicação técnica, explorando manipulação de datasets, taxas de amostragem e visão computacional.