Jak ludzie lokalizują dźwięki?

Natura wyposażyła nas w dwa oddzielne sensory zdolne wykrywać wibracje lub zmiany lokalnego ciśnienia w ograniczonym przedziale częstotliwości. Te "sensory" to oczywiście nasze uszy. Fale dźwiękowe to kolejne zgęszczenia i rozrzedzenia powietrza. Dźwięk rozchodzi się nie tylko w powietrzu, fala dźwiękowa może rozchodzić się także w innych gazach, cieczach i ciałach stałych. Oczywiście dźwięk nie rozchodzi się w próżni. Prędkość fali dźwiękowej zależy od temperatury i gęstości ośrodka. Np. prędkość dźwięku w powietrzu w temp. 0 °C to 331m/s a w temp. 20 °C - 334 m/s, w wodzie o temp. 10 °C - 1445 m/s.

Środowisko akustyczne

Bardzo ważne jest miejsce w którym się znajdujemy np. pokój, kościół, jaskinia, las. Każdy chyba zauważył że gdy krzyczymy w górach to odpowiada nam echo, nad jeziorem dźwięk "roznosi się" dużo dalej niż w lesie, itd. Dzieje się tak ponieważ na fale dźwiękową duży wpływ ma środowisko w którym się ona rozchodzi. Już samo powietrze w pewnym stopniu tłumi dźwięki (duże częstotliwości są pochłaniane w większym stopniu niż niskie, wielkość tłumienia zależy od czynników takich jak wiatr i wilgotność powietrza).

Co się stanie gdy na drodze fali dźwiękowej pojawi się jakaś przeszkoda np. ściana? W takim przypadku energia fali padającej ulega podziałowi część zostaje odbita, część przepuszczona a część pochłonięta. Ile energii zostanie odbitej, ile pochłoniętej a ile przepuszczonej zależy od rodzaju materiału z którego jest zrobiona przeszkoda (beton, szyba, drewno) i od częstotliwości dźwięku. Szkło okienne pochłania około 30% niskich częstotliwości ale tylko 10% wysokich. Fala dźwiękowa może dotrzeć bezpośrednio do słuchacza albo może przedtem odbić się raz, dwa lub kilka razy. Fala dźwiękowa odbija się tak długo dopóki nie zostanie całkowicie wytłumiona. Mogą zachodzić także inne zmiany fal dźwiękowych jak np. dyfrakcja (załamanie się na ostrych krawędziach), interferencja (nakładanie się fal) czy rozpraszanie. Dzięki takim zjawiskom jak pogłos, echo jesteśmy w stanie rozpoznać otoczenie posługując się tylko zmysłem słuchu. Czasami pierwsze odbicia mogą nam także dostarczyć informacji o blisko znajdujących się przedmiotach jak ściany.

Mechanizmy lokalizacji źródła dźwięku

W procesie lokalizacji źródła dźwięku najważniejszą funkcje spełnia mózg który, wykorzystując kilka mechanizmów, analizuje sygnały pochodzące z uszu.

ITD i IID

Mechanizmy lokalizacji źródła dźwięku - ITD i IID
ITD i IID

Rozważmy źródło dźwięku znajdujące się na prawo od słuchacza. Fala ciśnienia najpierw dotrze do prawego ucha. Lewe ucho jest dalej więc sygnał dźwiękowy dotrze do niego z opóźnieniem. Ponieważ lewe ucho jest dalej i w akustycznym cieniu głowy to odbierze sygnał cichszy niż prawe ucho. Te dwa podstawowe mechanizmy lokalizacji źródła dźwięku są nazwane: wewnątrzsłuchowa różnica intensywności ( Interaural Intensity Difference (IID)) i wewnątrzsłuchowa różnica czasu (Interaural Time Difference (ITD)). Nie wystarczą one aby dokładne określić położenie źródła dźwięku, dzięki nim mózg może tylko oszacować że źródło dźwięku znajduje się na powierzchni stożka którego wysokość przechodzi przez lewe i prawe ucho.

HRTF

Zanim dźwięk dotrze do błony bębenkowej przechodzi przez zewnętrzną strukturę ucha nazwaną małżowiną uszną. Małżowina uszna uwydatnia lub tłumi energie średnich i wysokich częstotliwości fali dźwiękowej. Stopień tłumienia/wzmacniania zależy od kąta pod jakim fala dźwiękowa uderzyła w małżowinę i częstotliwości dźwięku. Fala dźwiękowa która dotrze do głowy jest tłumiona i odbijana. Efekt filtrujący głowy i małżowiny usznej jest zazwyczaj określany pod jednym terminem - Head-Related Transfer Function (HRTF) czyli funkcja przenoszenia związana z głową. Niektórzy używają terminu HRTF odnośnie wszystkich modyfikacji sygnału audio przez fizjologie słuchacza (włączając IID i ITD). Oczywiście każdy ma inną głowę i małżowinę uszną, więc u każdego filtracja jest trochę inna.

Wskazówki dostarczane przez HRTF są dużo subtelniejsze niż IID i ITD. Na podstawie IID, ITD i HRTF mózg jest w stanie dokładnie określić kierunek źródła dźwięku, ale żaden z tych mechanizmów nie dostarcza informacji o dystansie.

DRR

Głośność dźwięku jest związana z dystansem. Z doświadczenia wiemy że gdy słyszymy np. cichy odgłos dzwonów kościelnych to znaczy że kościół jest gdzieś daleko. Gorzej jeśli dany dźwięk słyszymy pierwszy raz. Nie potrafimy stwierdzić jak daleko jest źródło dźwięku ponieważ nie mamy punktu odniesienia - nie wiemy z jaka głośnością dźwięk został wyemitowany. Można przecież słyszeć dźwięki głośne i odległe albo bliskie cicho.

Do określenia odległości źródła dźwięku mózg używa mechanizmu Direct to Reverberant Ratio (DRR) czyli mierzy stosunek głośności dźwięku który dotarł bezpośrednio do głośności dźwięku po odbiciach.

Z jaką dokładnością ludzie mogą zlokalizować źródło dźwięku?

Jako istoty żyjące na ziemi, mamy głównie styczność z lokalizacją dźwięku w poziomie (prawo - lewo, przód - tył). Natura obdarowała nas o wiele większą zdolnością określania azymutu niż wysokości (pionowego kąta od horyzontu) źródła dźwięku. W warunkach laboratoryjnych jesteśmy w stanie osądzić azymutu z dokładnością do około 3 - 4 stopni. Możemy dać sobie radę w określaniu zmiany w wysokości blisko horyzontu większej niż 9 stopni, a nad głową ponad 20 stopni. Gdy IID i ITD osiągają zero dla dźwięków na osi (0 i 180 stopni) okazuje się że nie jesteśmy nawet w stanie odróżnić przodu od tyłu! W prawdziwym życiu używamy wizualnego potwierdzenia i ruchów głowy aby rozwiązać niejasność przód/tył. Wiele dodatkowych czynników może powodować jeszcze gorszą dokładność. Mechanizmy IID, ITD i HRTF działają tylko dla określonego przedziału częstotliwości (jest to związane z odległością miedzy uszami i wielkością fałd małżowiny usznej). Dlatego nie jesteśmy w stanie określić źródła bardzo niskich częstotliwości (poniżej 100-150 Hz). Generalnie im wyższa jest częstotliwość dźwięku tym fala dźwiękowa krótsza i może być lepiej lokalizowana.

Nawet dla dźwięków zawierających przydatne częstotliwości, jeżeli są one niezmienne i nieznane to mózg nie ma punktu odniesienia który pozwolił by osądzić efekt filtrowania małżowiny. (Przeważnie poruszamy głową aby zebrać więcej danych). Faktycznie możemy stwierdzić że każde dwa sygnały wygenerowane w tej samej fizycznej pozycji nie muszą być koniecznie zlokalizowane z równym powodzeniem. (Dokładność lokalizacji zależy od właściwości dźwięku takich jak częstotliwość i niezmienność. Proste, stałe tony są bardzo ciężkie do zlokalizowania).

Paweł Garski

Bibliografia:

  1. 1. Interactive 3D Audio Under Windows(r) - QSound Labs, Inc.
  2. 2. Enviromental Audio White Paper - Copyright Creative Technology Ltd
  3. 3. Aureal A3D Interactive - Aureal
  4. 4. "Podstawy biofizyki" pod Red. Doc. Andrzeja Pilawskiego Warszawa 1985 PZWL