La Cancelación de Eco Acústico (AEC) impide que los participantes remotos de una conferencia telefónica escuchen el eco de sus propias voces. En una llamada telefónica o teleconferencia, hay un extremo cercano y un extremo lejano. El extremo cercano es su ubicación y el extremo lejano es la ubicación del otro participante. En cada ubicación, habrá al menos un micrófono y un altavoz.
Cuando hablas, tu micrófono capta tu voz y la transmite al otro extremo, donde el altavoz permite que te escuchen. Cuando el otro extremo habla, el micrófono y el altavoz del otro extremo te permiten escuchar lo que se dice en el otro extremo.
Si solo el micrófono de una sala está activado a la vez, no hay problema. Esto se denomina comunicación semidúplex y no es una experiencia muy satisfactoria. El micrófono de cada persona se silencia mientras la otra habla. Esto impide escuchar al interlocutor mientras se habla y significa que, si se quiere intervenir o pedir una aclaración, no hay forma de comunicarse con el interlocutor hasta que dejen de hablar, ya que el micrófono está silenciado. Por estas razones, las conferencias semidúplex no son aceptables en la mayoría de los casos.
El problema ocurre cuando ambos micrófonos se activan simultáneamente. Esto se denomina conferencia dúplex completa. Cuando el interlocutor empieza a hablar, el micrófono del interlocutor capta la voz y la envía al altavoz del interlocutor. El audio del altavoz del interlocutor es captado por el micrófono del interlocutor y devuelto al altavoz del interlocutor. Esto podría no parecer un problema al principio, pero la latencia de ida y vuelta de una llamada telefónica con líneas analógicas suele ser de al menos 80 a 100 milisegundos. Las llamadas VoIP tienen latencias aún mayores, y la latencia de una videoconferencia suele ser de 1 segundo o más. Esto significa que los interlocutores del interlocutor escucharán el eco de sus propias voces cada vez que hablen, lo que hace casi imposible la comunicación.
Una señal de audio puede eliminarse mezclándola con una versión invertida de sí misma, por lo que debería ser posible que el micrófono ignore el sonido que sale del altavoz. Sabemos exactamente cómo se ve la señal de audio cuando se envía al altavoz. Sin embargo, esto no coincide exactamente con el audio que capta el micrófono. El audio que sale del altavoz se refleja varias veces en las superficies de la habitación y estas reflexiones llegan al micrófono en momentos distintos; cada reflexión tiene diferentes frecuencias absorbidas o bloqueadas por las diversas superficies y objetos de la habitación. Cada una de estas reflexiones suena ahora muy diferente de la señal original y entre sí.
Para eliminar el audio del altavoz de la señal del micrófono, el algoritmo AEC primero debe determinar cómo suena el audio del altavoz al llegar al micrófono. El algoritmo AEC compara el audio del micrófono con el audio que se envía al altavoz para generar una respuesta de impulso de sala. Esta respuesta de impulso de sala se convierte en la base del filtro que se utiliza para eliminar el audio del altavoz de la señal del micrófono.