No final dos anos 1800, os cientistas perceberam que as aves migratórias faziam voos noturnos específicos de cada espécie – “impressões digitais acústicas”. Quando os microfones foram disponibilizados na década de 1950, os pesquisadores começaram a registrar pássaros à noite. Farnsworth liderou alguns desses estudos de ecologia acústica na década de 1990. Mas mesmo assim, era difícil discernir chamadas curtas, algumas das quais estão no limite da faixa de frequência que os humanos podem ouvir. Os pesquisadores encontraram milhares de fitas, que tiveram que estudar em tempo real, observando espectrogramas que visualizam o som. Embora a tecnologia digital tenha facilitado a gravação, diz Farnsworth, “o problema constante era que se tornava cada vez mais fácil coletar grandes quantidades de dados de áudio, mas cada vez mais difícil analisar até mesmo alguns deles”.
Farnsworth então se encontrou com Juan Pablo Bello, diretor do Laboratório de Pesquisa Musical e Sonora da NYU. Bello concordou em resolver o problema das ligações noturnas de avião com um projeto que usa aprendizado de máquina para identificar fontes de ruído urbano na cidade de Nova York. Ele montou uma equipe que incluía o especialista francês em escuta automática Vincent Lostanlen e, em 2015, nasceu o projeto BirdVox para automatizar o processo. “Todos pensavam que quando esta noz fosse finalmente quebrada, seria uma fonte extremamente rica de informações”, diz Farnsworth. Mas no início, lembra Lostanlen, “não havia sequer um indício de que isso fosse viável”. Parecia inimaginável que o aprendizado de máquina pudesse se aproximar das habilidades auditivas de especialistas como Farnsworth.
“André é nosso herói”, diz Bello. “Tudo o que queremos imitar com os computadores é Andrew.”
Eles começaram ensinando a rede neural BirdVoxDetect a ignorar erros como zumbidos baixos causados por danos aos microfones causados pela água da chuva. Eles então treinaram o sistema para reconhecer chamadas de voo que variam entre (e até mesmo dentro) das espécies e podem ser facilmente confundidas com um alarme de carro ou um sensor de primavera. De acordo com Lostanlen, o desafio foi semelhante ao que um alto-falante inteligente enfrenta ao ouvir sua palavra de ativação exclusiva, exceto que a distância entre o ruído alvo e o microfone é muito maior (o que significa muito mais ruído de fundo para compensar). E, claro, os pesquisadores não puderam escolher um som único como “Alexa” ou “Hey Google” como gatilho. “No caso dos pássaros, não fazemos essa escolha. Charles Darwin fez essa escolha por nós”, brinca. Felizmente, eles tinham muitos dados de treinamento para trabalhar – a equipe de Farnsworth anotou manualmente milhares de horas de gravações coletadas com os microfones de Ithaca.
Como o BirdVoxDetect é treinado para detectar cantos de voo, outra tarefa difícil foi ensiná-lo a classificar os cantos detectados em espécies, o que poucos observadores de pássaros experientes conseguem fazer de ouvido. Para lidar com a incerteza, e porque não existem dados de treino para cada espécie, decidiram por um sistema hierárquico. Por exemplo, o BirdVoxDetect pode identificar a ordem e a família dos pássaros para um determinado canto, mesmo que não tenha certeza da espécie – assim como um observador de pássaros pode pelo menos identificar o canto como o apelido de um pássaro, seja ele de patas amarelas ou de patas castanhas. . Durante o treinamento, a rede neural foi menos penalizada ao confundir pássaros que estavam mais próximos na árvore taxonômica.