Die akustische Echounterdrückung (AEC) verhindert, dass die Teilnehmer einer Telefonkonferenz am anderen Ende ihre eigene Stimme als Echo hören. Bei einem Telefonat oder einer Videokonferenz gibt es ein nahes und ein fernes Ende. Das nahe Ende ist Ihr Standort, das ferne der Standort des anderen Teilnehmers. An jedem Standort befinden sich mindestens ein Mikrofon und ein Lautsprecher.
Wenn Sie sprechen, nimmt Ihr Mikrofon Ihre Stimme auf und überträgt sie an die andere Seite, wo der Lautsprecher dafür sorgt, dass Sie dort gehört werden. Wenn die andere Seite spricht, ermöglichen das Mikrofon an der anderen Seite und der Lautsprecher an der anderen Seite Ihnen, das Gesagte zu hören.
Wenn jeweils nur das Mikrofon in einem Raum eingeschaltet ist, gibt es kein Problem. Dies nennt man Halbduplex-Kommunikation, und sie ist nicht sehr zufriedenstellend. Das Mikrofon jeder Person ist stummgeschaltet, sobald die andere Person spricht. Dadurch ist es unmöglich, die andere Person zu hören, während man selbst spricht. Möchte man also etwas einbringen oder um Klärung bitten, kann man nicht mit der anderen Person kommunizieren, bis diese aufhört zu sprechen, da das eigene Mikrofon stummgeschaltet ist. Aus diesen Gründen ist Halbduplex-Konferenzen in den meisten Fällen nicht akzeptabel.
Das Problem tritt auf, wenn beide Mikrofone gleichzeitig eingeschaltet sind. Dies nennt man Vollduplex-Konferenz. Sobald der Gesprächspartner am anderen Ende spricht, wird sein Ton vom Mikrofon am anderen Ende aufgenommen und an den Lautsprecher am anderen Ende weitergeleitet. Der Ton des Lautsprechers am anderen Ende wird dann vom Mikrofon am anderen Ende aufgenommen und zurück an den Lautsprecher am anderen Ende gesendet. Dies mag zunächst kein Problem darstellen, doch die Latenz eines Telefongesprächs über analoge Leitungen beträgt üblicherweise mindestens 80 bis 100 Millisekunden. VoIP-Anrufe weisen noch längere Latenzen auf, und die Latenz bei Videokonferenzen kann oft eine Sekunde oder mehr betragen. Das bedeutet, dass die Gesprächspartner am anderen Ende ihre eigene Stimme bei jedem Sprechen als Echo hören, was die Kommunikation nahezu unmöglich macht.
Ein Audiosignal kann durch Mischen mit einer invertierten Version ausgelöscht werden. Daher sollte es möglich sein, das Mikrofon so einzustellen, dass es den vom Lautsprecher kommenden Ton ignoriert. Wir wissen genau, wie das Audiosignal aussieht, wenn es an den Lautsprecher gesendet wird. Dieses Signal entspricht jedoch nicht exakt dem vom Mikrofon aufgenommenen Audiosignal. Der vom Lautsprecher kommende Ton wird von Oberflächen im Raum mehrfach reflektiert, und diese Reflexionen erreichen das Mikrofon zu unterschiedlichen Zeiten. Jede Reflexion weist unterschiedliche Frequenzen auf, die von den verschiedenen Oberflächen und Objekten im Raum absorbiert oder blockiert werden. Jede dieser Reflexionen klingt nun deutlich anders als das ursprüngliche Signal und auch anders als die anderen.
Um das Lautsprechersignal aus dem Mikrofonsignal zu entfernen, muss der AEC-Algorithmus zunächst ermitteln, wie das Lautsprechersignal klingt, wenn es das Mikrofon erreicht. Der AEC-Algorithmus vergleicht das Mikrofonsignal mit dem an den Lautsprecher gesendeten Signal, um eine Raumimpulsantwort zu generieren. Diese Raumimpulsantwort dient dann als Grundlage für den Filter, der das Lautsprechersignal aus dem Mikrofonsignal entfernt.