Praca Z 10 = Praca CLB =

ZAŁĄCZNIK „X” Zakład Z-10 Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektronicznej oraz urządzenia do takiej oceny i ...
Author: Weronika Marek
4 downloads 5 Views 2MB Size
ZAŁĄCZNIK „X”

Zakład Z-10 Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektronicznej oraz urządzenia do takiej oceny i do badania dostępności "usług" poprzez numery alarmowe - etap 1

Praca Z–10 = 10300026 ZAŁĄCZNIK „X”

Zadanie: Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektronicznej Praca CLB = 09300026

Warszawa, listopad 2006

Tytuł pracy: Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektronicznej oraz urządzenia do takiej oceny i do badania dostępności "usług" poprzez numery alarmowe - etap 1 Tytuł zadania:

Metody obiektywnej oceny jakości usługi głosowej QoS w sieciach łączności elektronicznej

Wykonawca zadania: CLB Numer pracy: Numer zadania:

Z–10 = 10300026 CLB = 09300026

Słowa kluczowe: VoIP, PSTN, jakość głosu, metody subiektywne, metody obiektywne Kierownik pracy inż. Paweł Godlewski Kierownik zadania: dr inż. Maria J. Trzaskowska Wykonawcy pracy:

dr inż. Maria J. Trzaskowska mgr inż. Bogdan Mucha

Kierownik Zakładu: inż. Bogdan Chojnacki

© Copyright by Instytut Łączności, Warszawa 2006

Spis treści: 1 WSTĘP ............................................................................................................................................................... 3 2 PARAMETRY WPŁYWAJĄCE NA JAKOŚĆ PRZEKAZU GŁOSU ....................................................... 3 2.1 2.2 2.3 2.4 2.5

OPÓŹNIENIE PRZEKAZU PAKIETÓW ....................................................................................................... 3 UTRATA PAKIETÓW............................................................................................................................... 4 FLUKTUACJA ........................................................................................................................................ 4 ZJAWISKO ECHA.................................................................................................................................... 4 KODEKI................................................................................................................................................. 5

3 METODY BADANIA JAKOŚCI MOWY TRANSMITOWANEJ .............................................................. 6 3.1 METODY SUBIEKTYWNE ....................................................................................................................... 7 3.1.1 Metoda bezwzględnej oceny jakości mowy ACR ............................................................................. 7 3.1.2 Metoda określająca stopień degradacji jakości mowy DCR ........................................................... 9 3.1.3 Metoda porównawcza oceny jakości mowy CCR .......................................................................... 10 3.1.4 Metoda badania wyrazistości logatomowej .................................................................................. 11 3.1.5 Metoda „Double Talk” ................................................................................................................. 12 3.1.6 Ankietyzacja ITU-E.125[17] ......................................................................................................... 13 3.2 METODY OBIEKTYWNE ....................................................................................................................... 17 3.2.1 Obiektywna metoda porównawcza PSQM .................................................................................... 17 3.2.2 Obiektywna metoda porównawcza PSQM +................................................................................. 19 3.2.3 Obiektywna metoda porównawcza PAMS..................................................................................... 19 3.2.4 Obiektywna metoda porównawcza PESQ ..................................................................................... 21 3.2.5 Obiektywna metoda bezwzględnej oceny jakości mowy INMD ..................................................... 22 3.2.6 E - model ....................................................................................................................................... 23 3.3 MIARY OCENY JAKOŚCI TRANSMITOWANEJ MOWY I ICH STANDARYZACJA ......................................... 30 4 ZAŁOŻENIA NA OPTYMALNY ALGORYTM OBLICZANIA PARAMETRÓW JAKOŚCIOWYCH MOWY TRANSMITOWANEJ ................................................................................... 35 5 ZASTOSOWANIE PRAKTYCZNE METODY PESQ (PERCEPTUAL EVALUATION OF SPEECH QUALITY) ........................................................................................................................................................ 36 5.1 5.2 5.3

SYGNAŁY TESTOWE ASTS (ARTIFICIAL SPEECH TEST SIGNAL)............................................................ 36 SYSTEM DO OBIEKTYWNEJ OCENY JAKOŚCI MOWY PESQ WEDŁUG ITU-T P.862 ............................... 41 PRZYKŁADOWE WYNIKI POMIARÓW JAKOŚCI USŁUGI GŁOSOWEJ........................................................ 43

6 PODSUMOWANIE......................................................................................................................................... 46 7 DOKUMENTY ZWIĄZANE ......................................................................................................................... 47 7.1 7.2

DOKUMENTY STANDARYZACYJNE ...................................................................................................... 47 INNE DOKUMENTY ZWIĄZANE ............................................................................................................. 48

Spis rysunków: RYSUNEK 1 RYSUNEK 2 RYSUNEK 3 RYSUNEK 4 RYSUNEK 5 RYSUNEK 6 RYSUNEK 7 RYSUNEK 8 RYSUNEK 9

PARAMETRY SIECI IP MAJĄCE WPŁYW NA JAKOŚĆ PRZEKAZU GŁOSU .............................................. 3 WPŁYW OPÓŹNIENIA NA JAKOŚĆ TRANSMISJI MOWY ....................................................................... 4 ECHO MÓWCY .................................................................................................................................. 5 ECHO SŁUCHACZA ............................................................................................................................ 5 KLASYFIKACJA METOD BADANIA JAKOŚCI MOWY ............................................................................ 6 SCHEMAT KONFIGURACJI DO TESTÓW SUBIEKTYWNYCH.................................................................. 7 POZIOM ZNIEKSZTAŁCEŃ TRANSMISJI W ZALEŻNOŚCI OD MOS ....................................................... 9 POZIOM ZNIEKSZTAŁCEŃ TRANSMISJI W ZALEŻNOŚCI OD POW ORAZ GOB...................................... 9 OGÓLNA KONCEPCJA METODY BADANIA WYRAZISTOŚCI LOGATOMOWEJ ...................................... 11

1

RYSUNEK 10 RYSUNEK 11 RYSUNEK 12 RYSUNEK 13 RYSUNEK 14 RYSUNEK 15 RYSUNEK 16 RYSUNEK 17 RYSUNEK 18 RYSUNEK 19 RYSUNEK 20 RYSUNEK 21 RYSUNEK 22 RYSUNEK 23 RYSUNEK 24 RYSUNEK 25 RYSUNEK 26 RYSUNEK 27 RYSUNEK 28 RYSUNEK 29 RYSUNEK 30 RYSUNEK 31

OGÓLNA KONCEPCJA METODY PORÓWNAWCZEJ SZACOWANIA JAKOŚCI MOWY ........................ 17 KONCEPCJA POMIARU JAKOŚCI TRANSMISJI SYGNAŁU MOWY METODĄ PSQM ......................... 18 SCHEMAT BLOKOWY ZASADY DZIAŁANIA METODY PSQM ....................................................... 19 SCHEMAT BLOKOWY POMIARU JAKOŚCI MOWY ZA POMOCĄ METODY PAMS ........................... 20 SCHEMAT BLOKOWY POMIARU JAKOŚCI MOWY ZA POMOCĄ METODY PESQ............................. 21 KONCEPCJA METODY E-MODELU .............................................................................................. 23 POWIĄZANIA E-MODELU Z SUBIEKTYWNYMI I OBIEKTYWNYMI METODAMI OCENY JAKOŚCI MOWY 24 SKALA JAKOŚCI E-MODELU DEFINIOWANA PRZEZ ZALECENIE ITU-T G.109. ............................ 25 MOS JAKO FUNKCJA WSPÓŁCZYNNIKA JAKOŚCI TRANSMISJI R................................................. 26 GOB ORAZ POW JAKO FUNKCJE WSPÓŁCZYNNIKA JAKOŚCI TRANSMISJI R ............................... 26 WPŁYW TŁUMIENIA ECHA NA WSKAŹNIK R OCENY JAKOŚCI MOWY .......................................... 27 WPŁYW ECHA I OPÓŹNIENIA NA WSKAŹNIK R OCENY JAKOŚCI MOWY....................................... 27 WPŁYW CAŁKOWITEGO OPÓŹNIENIA (TA) NA WSKAŹNIK R OCENY JAKOŚCI MOWY ................. 27 QOS Z RÓŻNYCH PUNKTÓW WIDZENIA GRUP UCZESTNICZĄCYCH W PROCESIE KOMUNIKACJI .. 31 MIARY JAKOŚCI METOD OBIEKTYWNYCH W ODNIESIENIU DO MOS .......................................... 33 ZNORMALIZOWANE METODY OBIEKTYWNE BADANIA JAKOŚCI GŁOSU ...................................... 34 GŁOS MĘSKI (AMERYKANIN)..................................................................................................... 37 GŁOS MĘSKI (BRYTYJCZYK)...................................................................................................... 38 GŁOS ŻEŃSKI (AMERYKANKA) .................................................................................................. 39 GŁOS ŻEŃSKI (BRYTYJKA) ........................................................................................................ 40 WSPÓŁPRACA DSLA Z ANALOGOWYMI I CYFROWYMI TERMINALAMI ...................................... 41 KONFIGURACJA POMIAROWA .................................................................................................... 43

Spis tabel: TABELA 1. OCENA MOS W ZALEŻNOŚCI OD KATEGORII .......................................................................................... 8 TABELA 2. STOPIEŃ DEGRADACJI JAKOŚCI MOWY DMOS ..................................................................................... 10 TABELA 3. PORÓWNANIE JAKOŚCI MOWY WG. SKALI CMOS................................................................................. 11 TABELA 4. PRZYKŁADOWA LISTA 50 LOGATOMÓW ............................................................................................... 12 TABELA 5. PARAMETRY ANALIZOWANE PODCZAS TESTU „DOUBLE TALK” ........................................................... 13 TABELA 6. WARTOŚCI WSKAŹNIKA R DLA RÓŻNYCH TYPÓW KODEKÓW ............................................................... 28 TABELA 7. PRZYKŁADOWE WARTOŚCI DLA WSPÓŁCZYNNIKA A............................................................................ 29 TABELA 8. WARTOŚCI DOMYŚLNE ORAZ DOPUSZCZALNE ZAKRESY DLA PARAMETRÓW TRANSMISJI MOWY.......... 29 TABELA 9 PARAMETRY JAKOŚCI DLA REALIZACJI USŁUG TRANSMISJI GŁOSU I WIDEO WG ITU-T G.1010 [19] ..... 32 TABELA 10 MIARY JAKOŚCI METOD SUBIEKTYWNYCH W ODNIESIENIU DO MOS .................................................. 32 TABELA 11 WSPÓŁCZYNNIKI KORELACJI METOD OBIEKTYWNYCH Z MOS............................................................ 35

2

1

Wstęp

W ostatnich latach, w związku z rosnącą konkurencją oraz wprowadzeniem nowych technik przekazu, sama gwarancja dostarczenia przez sieć telekomunikacyjną sygnałów akustycznych z jednego punktu do drugiego stała się niewystarczająca. Dużego znaczenia nabrały zagadnienia związane z jakością usług oferowanych przez operatorów sieci telekomunikacyjnych, w tym głównie usługi głosowej. Zarówno połączenia pakietowe jak i komórkowe (GSM, UMTS) oddziałują na sygnał mowy w specyficzny sposób - pojawiają się czynniki nieznane w tradycyjnych sieciach PSTN, mające duży wpływ na jakość odbioru usługi głosowej. Wśród listy czynników mających największy wpływ na jakość przekazu głosu po stronie sieci ma opóźnienie, straty pakietów oraz fluktuacje. Na końcową jakość przekazu głosu postrzeganą przez użytkownika końcowego mają również wpływ parametry terminali takie jak: straty pakietów, charakterystyki kodeka, echo, bufor fluktuacji, opóźnienie oraz jego parametry akustyczne. Ze względu na ich powiązania oraz wzajemny wpływ, ocena jakości głosu staje się zadaniem trudnym (Rysunek 1).

Rysunek 1 2 2.1

Parametry sieci IP mające wpływ na jakość przekazu głosu

Parametry wpływające na jakość przekazu głosu Opóźnienie przekazu pakietów

Opóźnienie przekazu pakietów, określane jako czas upływający pomiędzy wysłaniem pierwszego bitu pakietu, a odebraniem ostatniego bitu tego samego pakietu, ma niekorzystny wpływ na jakość połączenia głosowego. Na podstawie badań uznano, że opóźnienie w jednym kierunku (ang. one-way delay), niezauważane przez rozmówców, nie powinno przekraczać 150 ms (zalecenie ITU - T G.114 [8]). Osiągnięcie wartości opóźnienia 250 ms znacząco utrudnia podtrzymywanie rozmowy i powoduje, że rozmowa zaczyna przypominać komunikację naprzemienną (ang. half-duplex). Przy opóźnieniach rzędu 500 ms jakość głosu jest już nie do przyjęcia (Rysunek 2).

3

Rysunek 2

Wpływ opóźnienia na jakość transmisji mowy

Zminimalizowanie opóźnienia jest bardzo istotnym elementem przy wdrażaniu technologii transmisji głosu, szczególnie w przypadku sieci IP, która ma ograniczone możliwości sterowania jakością transmisji. Najistotniejszy wpływ na wielkość opóźnienia mają następujące czynniki: • • • • 2.2

czas kodowania dźwięku, czas transmisji (szczególnie w sieciach rozległych), eliminacja zmienności opóźnienia, serializacja. Utrata pakietów

Istotnym parametrem wpływającym na jakość połączenia głosowego w sieci pakietowej jest także zjawisko utraty pakietu. Parametr ten istnieje od początku technologii IP i oznacza niedostarczenie do odbiornika pakietu wysłanego przez nadajnik. Określany jest procentowo jako stosunek utraconych pakietów do pakietów wysłanych. Utrata pakietów podczas transmisji w sieci IP może być spowodowana takimi czynnikami jak: • • •

znaczne obciążenie sieci (np. przepełnienie bufora w węźle pośredniczącym, celowe zniszczenie pakietów przez router w celu rozładowania stanu natłoku); wystąpienie kolizji w węźle; przekroczenie dopuszczalnego czasu opóźnienia (pakiet docierający do bufora wyrównującego traktowany jest jako zagubiony i odrzucony);

Utrata pakietów staje się postrzegana przy poziomie od 1% do 3%. Gdy wartość utraconych pakietów przekracza 5% wysyłanej porcji informacji, to zauważa się pogorszenie jakości. Szczególnie szkodliwa jest utrata grupowa znacznej ilości pakietów, spowodowana chwilowym przeciążeniem sieci. 2.3

Fluktuacja

Fluktuacja (ang. jitter) jest parametrem, na który szczególnie wrażliwe są aplikacje czasu rzeczywistego, takie jak np. transmisja głosu czy sygnału wideo. Parametr ten określany jest jako zakres, w którym zmienia się wartość opóźnienia mierzona dla pakietów należących do tego samego strumienia. Skutki fluktuacji można kompensować stosując tzw. "bufory fluktuacji". Jeśli jednak pakiet ma opóźnienie przekraczające opóźnienia generowane przez bufor fluktuacji, to zostanie on zgubiony. 2.4

Zjawisko echa

Ze względu na opóźnienia charakterystyczne dla sieci IP, występowanie echa jest zjawiskiem negatywnym, degradującym jakość przekazu głosu.

4

Wyróżnia się dwa rodzaje echa: - echo mówcy; - echo słuchacza. Echo mówcy (Rysunek 3) występuje wówczas, gdy część energii sygnału nadawanego w wyniku odbić występujących w sieci, powraca do odbiornika nadawcy. Jest zjawiskiem najczęściej występującym w sieci.

Rysunek 3

Echo mówcy

Echo słuchacza (Rysunek 4) występuje wówczas, gdy część energii sygnału nadawanego powraca do nadawcy a następnie w wyniku odbić powraca z powrotem do odbiorcy dwukrotnie pokonując tę samą drogę. Jest zjawiskiem rzadziej występującym.

Rysunek 4

Echo słuchacza

Występowanie w sieci IP echa o obustronnych czasach opóźnienia (ang. round-trip delay) nie przekraczających ok. 30 ms (ITU-T P.800 [10]) jest zjawiskiem powodującym minimalne zakłócanie rozmowy, ponieważ osoba mówiąca nie jest w stanie odróżnić echa od efektu lokalnego. Twierdzi się nawet, że w tych przypadkach występowanie zjawiska echa jest pożądane, gdyż upewnia osobę mówiącą o dobrej słyszalności jego słów. Zjawisko echa o czasach opóźnienia (ang. round-trip delay) powyżej 32 ms powoduje już dyskomfort w czasie rozmowy, możliwe staje się wówczas rozróżnienie informacji odbitej od informacji nadanej, jak również sygnał echa może nakładać się na informację nadaną z odległego końca. Ocenę subiektywną wpływu echa na jakość przekazu głosu warunkują dwa główne czynniki: amplituda odbitego sygnału oraz jego opóźnienie w stosunku do sygnału źródłowego. Im większy jest poziom echa oraz dłuższe opóźnienie, tym gorzej oceniana jest jakość dźwięku. 2.5

Kodeki

Kodek to urządzenie lub program, służące do przekształcania strumienia danych. Umożliwia zarówno kodowanie, jak i dekodowanie danych.

5

Parametrami określającymi właściwości kodeków z punktu widzenia jakości mowy są: • przepływność strumienia bitowego, • opóźnienie, • pasmo kodowanej mowy, • zrozumiałość (np. badana z wykorzystaniem list logatomowych), • jakość sygnału mowy wyrażona w skali MOS. 3

Metody badania jakości mowy transmitowanej

W poniższym rozdziale przedstawiono opis najczęściej stosowanych metod oceny jakości mowy „end-to-end”, przesyłanej przez sieci telekomunikacyjne. Każdy z opisanych w poprzednim rozdziale parametrów wpływa indywidualnie na jakość całego połączenia, dlatego pomiar już jednego z nich jest w pewnym sensie metodą badania jego wpływu na jakość przesyłanej mowy. Ze względu jednak na wzajemne powiązania parametrów, które przedstawia Rysunek 1, oraz na ich złożony wpływ na jakość przesyłanej mowy, pomiar tylko jednego z nich staje się niewystarczający. Wymagania stawiane metodom oceny jakości mowy, dotyczące spełnienia warunku uniwersalności (pomiar klasy „end-to-end”) oraz ich powtarzalności powoduje, że metody te stały się skomplikowane. Zasadniczo metody badania jakości mowy dzielimy na: metody subiektywne oraz metody obiektywne. Rysunek 5 przedstawia klasyfikację metod oceny jakości mowy

Rysunek 5

Klasyfikacja metod badania jakości mowy

Ocena jakości mowy metodami subiektywnymi wymaga odsłuchu tej mowy przez słuchaczy w czasie rzeczywistym. Metody obiektywne podzielić można na metody wykorzystujące modele parametryczne (np. E-model) oraz metody wykorzystujące parametryzację sygnału mowy. W 6

zależności od tego, czy w badaniach korzysta się z porównywania sygnałów odniesienia i zdegradowanego, czy jedynie z sygnału badanego i subiektywnej oceny słuchaczy, metody obiektywne dzieli się dodatkowo na metody porównawcze i bezwzględne. 3.1

Metody subiektywne

Podstawową miarą jakości połączenia wykorzystywaną w metodach subiektywnych jest opinia użytkowników sieci. Subiektywne pomiary jakości mowy przeprowadza się na reprezentatywnej i przeszkolonej grupie osób w określonych przez wymagania, kontrolowanych i powtarzalnych warunkach. Warunki te powinny być jak najbardziej zbliżone do warunków naturalnych. Rysunek 6 ukazuje schematycznie konfigurację, w jakiej przeprowadza się testy subiektywne.

Rysunek 6

Schemat konfiguracji do testów subiektywnych

Do najczęściej stosowanych subiektywnych metod badania usługi głosowej należą: 1) ACR (ang. Absolute Category Rating) – metoda bezwzględnej oceny jakości mowy; 2) DCR (ang. Degradation Category Rating) – metoda określająca stopień degradacji jakości mowy ; 3) CCR (ang. Comparision Category Rating) – metoda porównawcza oceny jakości mowy; 4) metoda badania wyrazistości logatomowej; 5) metoda „double-talk” (ang. Double Talk Tests). 3.1.1

Metoda bezwzględnej oceny jakości mowy ACR

Metoda ACR polega na wyznaczeniu bezwzględnej jakości prezentowanych próbek głosu bez zastosowania sygnału odniesienia i na wyznaczeniu parametru MOS (ang. Mean Opinion Score) – uśrednionej opinii słuchaczy, która charakteryzuje jakość dźwięku w badanym łańcuchu. Możliwe są dwa warianty metody: • •

testy konwersacyjne (obustronne połączenie), testy słuchowe (jednostronne połączenie)

Testy konwersacyjne odnoszą się do badań, w których uczestnicy testu prowadzą normalną rozmowę telefoniczną, po której oceniają oni jakość rozmowy w skali od 1 do 5. Badania takie mogą być przeprowadzone zarówno w laboratorium jak i w naturalnych warunkach. Aby badania te były wiarygodne, uczestniczący w badaniach powinni zostać odpowiednio przeszkoleni – m. in. powinni zostać zapoznani z różnicami pomiędzy poszczególnymi poziomami jakości dźwięku, urządzeniami oraz kolejnością i przebiegiem badania. Poza tym uczestnicy nie powinni brać udziału w podobnych badaniach przez okres, co najmniej 6 miesięcy, aby nie ulegali żadnym sugestiom z poprzednich badań. W testach powinny brać udział osoby o dobrym słuchu i odpowiedniej dykcji, zarówno kobiety jak i mężczyźni. 7

W celu przeprowadzenia wiarygodnych testów, wymagane jest przygotowanie dwóch odpowiedniej wielkości pomieszczeń przedzielonych ścianą, w których przebywać będą osoby prowadzące rozmowę. Hałas w tych pomieszczeniach nie powinien przekraczać poziomu 35dB(A). Dodatkowo można wprowadzać dźwięki symulujące różne warunki np. dźwięki towarzyszące podczas rozmowy na ruchliwej ulicy. Takie efekty zapewniają zainstalowane w pomieszczeniu głośniki. Drugim wariantem metody, wykorzystującej parametr MOS, są testy słuchowe. Podobnie jak poprzednio, testy te mogą być przeprowadzane zarówno w laboratorium jak i w warunkach rzeczywistych. W badaniu uczestnicy odsłuchują nagraną mowę, po czym oceniają ja w skali od 1 do 5. Nagranie jest rejestrowane i odtwarzane przez wysokiej klasy urządzenia rejestrujące. Nagrania stanowią głosy mężczyzn oraz kobiet odznaczających się dobrą dykcją. Samo nagranie trwa około 20s a jego treść to 5 krótkich zdań w formie twierdzącej lub pytającej. Warunki laboratoryjne powinny spełniać te same kryteria, co w przypadku testu konwersacji. Jednak w tym badaniu dopuszcza się jednoczesne odsłuchiwanie materiału testowego przez kilka osób. W takim wypadku oczywiście pomieszczenia muszą być odpowiednio większe, a uczestnicy nie powinni się wzajemnie kontaktować. Podczas badania również wprowadza się celowe zniekształcenia w celu porównania wrażeń słuchowych uczestniczących w teście. Metoda ta nie umożliwia oceny takich efektów jak echo, opóźnienia czy efekt lokalny. W obu wariantach uczestnicy korzystają z tej samej skali ocen oraz z tych samych kategorii dotyczących oceny jakości mowy transmitowanej. Tabela 1. Ocena MOS w zależności od kategorii Kategoria Skala

Ocena

Bezwzględna ocena

Wysiłek słuchowy

Głośność

A

5

Doskonała

Całkowity relaks

Znacznie głośniej niż potrzeba

B

4

Dobra

Niewielka uwaga

Głośniej niż potrzeba

C

3

Dość dobra

Umiarkowana uwaga

Głośność taka jak potrzeba

D

2

Słaba

Znaczny wysiłek słuchowy

Ciszej niż potrzeba

E

1

Zła

Brak zrozumienia, duża uwaga

Znacznie ciszej niż potrzeba

Wartością parametru MOS jest średnia arytmetyczna wszystkich ocen uczestników. Eksperymenty przeprowadza się dla konkretnej kategorii. Aby wyniki można było uznać za wiarygodne, niezbędna jest dostatecznie duża ilość osób biorących udział w badaniu. Jednocześnie często wyniki porównuje się z innymi wynikami przeprowadzanymi w innym laboratorium i przy takich samych warunkach połączenia. Metoda ACR może również posłużyć do określenia zależności pomiędzy uśrednioną opinią słuchaczy a wielkością zniekształceń w transmisji mowy.

8

Rysunek 7

Poziom zniekształceń transmisji w zależności od MOS

Często również wyniki badań prezentuje się za pomocą metody GoB oraz PoW. Jest to udział procentowy użytkowników, którzy ocenili dane połączenie jako dobre lub bardzo dobre (GoB – ang. Good or Better) lub ocenili połączenie jako słabe lub złe (PoW – ang. Poor or Worse). Również w tym przypadku można zaprezentować zależność tych współczynników od wielkości zniekształceń.

Rysunek 8

Poziom zniekształceń transmisji w zależności od PoW oraz GoB

Zasadniczą wadą metody ACR jest jej nieczułość na niewielkie zmiany jakości mowy. Ze względu na niewielką skalę, uczestnicy testu nie są w stanie zauważyć niewielkim zmian w jakości. 3.1.2

Metoda określająca stopień degradacji jakości mowy DCR

Alternatywą dla metody ACR, która nie dostarcza wystarczającej dokładności w pomiarach, jest metoda DCR. Metodę tę stosuje się do badania niewielkich zmian jakości mowy, tzw. stopnia degradacji mowy. W metodzie tej wykorzystywany jest sygnał odniesienia oraz sygnał, którego jakość chcemy określić. Warunki dla przeprowadzanych testów są identyczne jak w przypadku metody ACR, jedynie w inny sposób prezentowane są 9

próbki głosowe. W badaniu bierze udział przeszkolona grupa słuchaczy, którym prezentuje się próbki dźwięku pojedyncze (A - B) lub zdublowane (A - B – A - B). Symbol A oznacza wzorcowa próbkę dźwięku o wysokiej jakości, natomiast symbol B to odpowiednio zdegradowany dźwięk A. Zadaniem słuchaczy jest określenie stopnia zniekształcenia dźwięku B w stosunku do dźwięku odniesienia A. W przypadku prezentacji dźwięków zdublowanych, odstęp pomiędzy nimi powinien wynosić około 1 – 1,5 s. W testach tych wskazane jest również, aby co jakiś czas nadać pary „próbek wzorcowych” (A – A) w celu sprawdzenia czułości i dokładności odsłuchu. Każda próbka jest oceniana oddzielnie. Otrzymane wyniki pozwalają na wyznaczenie współczynnika DMOS (ang. Degradation Mean Opinion Score) – degradacyjnej, uśrednionej opinii słuchaczy. Uczestnicy testu mają do dyspozycji 5-cio stopniową skalę DMOS, określającą stopień degradacji (Tabela 2). Tabela 2. Stopień degradacji jakości mowy DMOS Skala DMOS

Stopień degradacji jakości mowy

5

Niesłyszalna oraz niezauważalna

4

Niesłyszalna, ale odczuwalna

3

Słabo odczuwalna

2

Odczuwalna

1

Wyraźnie odczuwalna

Metoda DCR umożliwia jedynie ocenę dźwięku w porównaniu do dźwięku odniesienia, który ma z góry ustaloną wzorcową jakość. Oznacza to, że gdyby próbka B miała lepszej jakości dźwięk od próbki A to taki fakt nie zostałby odnotowany i zauważony. Metody ACR oraz DCR zostały opisane w dokumencie ITU-T P.800 [10]. 3.1.3

Metoda porównawcza oceny jakości mowy CCR

Metoda CCR rozwiązuje problem związany z rozpoznawaniem lepszej jakości dźwięku badanego od dźwięku odniesienia. Warunki przeprowadzania testów są identyczne jak w powyższych obu metodach i tak samo wymagają odpowiednich przygotowań zarówno warunków jak i przeszkolenia osób biorących udział w teście. Różnica polega na sposobie przedstawiania próbek. Podobnie jak w metodzie DCR występują dwie próbki: badana oraz próbka wzorcowa. Jednak nie jest narzucona ich kolejność występowania tak, jak to jest w metodzie DCR. Zatem w metodzie CCR zadaniem słuchaczy jest porównanie drugiej próbki dźwięku z pierwszą i ocena według ustalonej skali. Wyniki pozwalają wyznaczyć parametr CMOS (ang. Comparision Mean Opinion Score). – poprzez porównawczą, uśrednioną opinię słuchaczy. Ponieważ nadawane próbki dźwięków mają charakter przypadkowy, to może się zdarzyć, że dźwięk badany będzie miał lepszą ocenę od dźwięku odniesienia. Użytkownicy mogą oceniać dźwięki w skali ocen -3÷3. Opis skali CMOS przedstawia Tabela 3.

10

Tabela 3. Porównanie jakości mowy wg. skali CMOS Skala CMOS

3.1.4

Porównanie jakości mowy

3

Znacznie lepsza

2

Lepsza

1

Nieznacznie lepsza

0

Prawie taka sama

-1

Nieznacznie gorsza

-2

Gorsza

-3

Znacznie gorsza

Metoda badania wyrazistości logatomowej

Metoda badania wyrazistości logatomowej polega na określeniu procentu prawidłowo odebranych logatomów przez grupę słuchaczy, w stosunku do całkowitej liczby nadanych logatomów przez jednego lektora [32]. Wykorzystuje się układ dwóch aparatów telefonicznych w dwóch odizolowanych względem siebie pomieszczeniach (Rysunek 9). Poziom hałasu w tych pomieszczeniach powinien wynosić około 35dB(A). Badania mogą być przeprowadzane zarówno w laboratorium jak i w warunkach naturalnych. Badanie to polega na określeniu procentu prawidłowo odczytanych logatomów w stosunku do całkowitej liczby nadanych.

lektor Badany system

Rysunek 9

słuchacze

Ogólna koncepcja metody badania wyrazistości logatomowej

Logatomami nazywamy sylaby, które w danym języku są pozbawione jakiegokolwiek sensu i znaczenia (patrz Tabela 4). Pomiar polega na przesłaniu przez łącze odpowiedniej liczby logatomów oraz na ich odebraniu przez słuchaczy. Logatomy zebrane w listach (około 100 w jednej) odczytywane są przez lektora z częstotliwością, co 5 sekund jeden. Rolę osoby czytającej może pełnić wysokiej klasy komputer. Osoby słuchające notują odebrane logatomy na specjalnym kwestionariuszu. Zapisane kwestionariusze przekazywane są grupie ekspertów, którzy sprawdzają i określają liczbę prawidłowo odczytanych logatomów. Na tej podstawie określa się współczynnik średniej wyrazistości logatomowej ze wzoru:

11

WL =

1 NK

N

K

∑∑W

n ,k

n =1 k =1

gdzie: N - ilość słuchaczy biorących udział w badaniu; K - liczba odczytanych list logatomów; Wn,k - wyrazistość logatomowa dla k-tej listy i n-tego słuchacza. Jest to wyrażony w procentach stosunek liczby prawidłowo zapisanych logatomów do liczby logatomów odebranych. Grupa uczestników testu musi przejść odpowiednie szkolenie oraz przed rozpoczęciem właściwych badań sesję treningową. Do sesji treningowej używa się co najmniej dwóch 100-logatomowych list. W badaniu powinny brać udział osoby o prawidłowym słuchu. Dla wiarygodności badania ważna jest zarówno ilość uczestników testu jak również ilość list logatomowych. Badanie przeprowadza się w kilku sesjach, a odstęp pomiędzy nimi powinien być nie krótszy niż 1 doba i nie dłuższy niż 3 dni. Wszystkie powyższe warunki sprawiają, że metoda ta jest wyjątkowo czaso- i -pracochłonna oraz wymaga wysokich nakładów pieniężnych. Ze względu na to, że wysoka zrozumiałość mowy transmitowanej nie musi świadczyć o jej wysokiej jakości, ta jest niewystarczająca do oceny jakości mowy w łączu telekomunikacyjnym.

Tabela 4. Przykładowa lista 50 logatomów uso wiołnko sze speszy lo puta znodyl ną zeno miocza

3.1.5

zdeń źłeto manc winildzip reżga nio tol resie łi dziżo

paszen Chu jeszty Ny kade Miu wynio zjuncza Ła duskać

sia szłeniek wązmiś re pokram zo jał wisa pe jontla

tet ruły szy stryżma ofkat mo bifo cnanie kia bys

Metoda „Double Talk”

Metoda ta pozwala na badanie jakości mowy transmitowanej podczas jednoczesnej rozmowy dwóch osób. Warunki, w których przeprowadza się testy, są identyczne jak w w/w. metodach. W metodzie „double talk” bierze udział grupa przeszkolonych osób, podzielona na dwuosobowe zespoły. W badaniu jedna osoba mówi w sposób ciągły, natomiast drugi rozmówca przerywa co jakiś czas. Takie testy pozwalają na ocenę poszczególnych parametrów transmisji mowy podczas rozmowy ciągłej dwóch osób. Ocena ta jest dokonywana zarówno przez osobę mówiącą w sposób ciągły jak i przez osobę przerywającą. Najważniejsze parametry, które można dzięki tej metodzie przeanalizować, zawiera Tabela 5.

12

Tabela 5. Parametry analizowane podczas testu „Double Talk” Rozmówca mówiący w sposób ciągły

Rozmówca przerywający

Zdolność do równoczesnego mówienia Zupełność transmisji mowy Głośność podczas równoczesnego mówienia Echo Zmiana echa, podczas gdy mówi jedna osoba oraz podczas równoczesnego mówienia

Jakość dźwięku

3.1.6

Zmiana głośności, podczas gdy mówi jedna osoba oraz podczas równoczesnego mówienia Jakość dźwięku, podczas gdy mówi jedna osoba oraz podczas równoczesnego mówienia

Ankietyzacja ITU-E.125[17]

W Europie operatorzy telekomunikacyjni, aby uzyskać opinie użytkowników o jakości usług głosowych realizowanych przez ich sieci, proszą o wypełnienie anonimowych ankiet. Poniżej przedstawiono kilkanaście szczegółowych pytań (w oryginale) z ankiety pochodzącej z zalecenia ITU-E.125 [17] 9.0

............................................. ...... Which of these four words comes closest to describing the quality of the connection during conversation?

9.1



excellent

9.2



good

9.3



fair

9.4



poor

10.0

Did you or the person you were talking to have difficulty in talking or hearing over that connection? (If answer is “yes”) probe for nature of difficulty, but without suggesting possible types of difficulty, and copy down answers verbatim: e.g. “Could you describe the difficulty a little more?” ............................................. ............................................. ..............

13

At end of interview, categorize the answers in terms of the items below: 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.0

– low volume – noise or hum – distortion – variations in level, cutting on and off – crosstalk – echo – complete cut off – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... Did you have any difficulty talking or hearing over that connection? Do not probe: If the person volunteers an explanation, write it down. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............................................. . . . . . . . . . . . . . . . . . On question 10.1-10.8, attempt to read entire text before respondent replies.

10.1

Now I'd like to ask some specific questions about the connection. If the person has already described difficulty, add:

10.1.1 10.1.2 10.1.3 10.1.4

10.2 10.2.1 10.2.2 10.2.3 10.2.4

(In view of what you've already said, some of these may seem repetitious, but please bear with me). First, during your conversa-tion on that call, did you hear your own voice echoing back, or did your own voice sound hollow to you? – echo hollow (own voice) – neither – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... Did you hear another telephone conversation on the telephone network at the same times as your own? – other conversation – no – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......

14

10.3

10.3.1 10.3.2 10.3.3 10.3.4 10.3.5 10.3.6 10.4

10.4.1 10.4.2 10.4.3 10.4.4 10.4.5 10.5

10.5.1 10.5.2 10.5.3 10.5.4 10.5.5 10.5.6 10.6

10.6.1 10.6.2 10.6.3 10.6.4 10.6.5 10.6.6

Now I'd like you to think about the voice of the person you were talking to. Was the volume of the voice low as if the person were faint and far away; did the voice fade in and out; or was the voice interrupted or chopped up at times? – low volume – fading – chopping – none – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... How did the voice of the person your were talking to sound to you: did it echo or sound hollow and tinny; or did it sound fuzzy or unnatural? – echo, hollow – fuzzy, unnatural – none – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... Now let me describe three kinds of noise. Tell me if you noticed any of these noises during your conversaiton: a rushing or hissing sound; a frying and/or sizzling, crackling sound; or a humming or buzzing sound? – rushing, hissing – frying and/or sizzling, crackling – humming, buzzing – none – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... Now let me describe three more kind of noise. Tell me if you noticed any of these during your conversation: a clicking sound; a series of musical tones or beeps; or a continuous high-pitched tone? – clicking – tones or beeps – high-pitched tone – none – don't remember/not sure – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......

15

10.7 10.7.1 10.7.2 10.7.3 10.7.4 10.8

10.8.1 10.8.2 10.8.3 10.8.4 10.8.5

10.9

10.9.1 10.9.2 10.9.3 10.9.4 10.9.5

Did the other person seem slow to respond, as if there were delay or time lag in the conversation? – yes – no – don't know – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... Would you please try to remember the background noise in the area around your telephone (e.g. noise from airconditioning plant unit, road traffic, office equipment or other people talking) when you made the call. Which of the following categories best describes it? – very noisy – noisy – quiet – very quiet – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......

Which of the categories listed below best describes the extent to which you heard your own voice through your telephone when you were talking? – could not hear it – could hear it now that you have drawn my attention to it – did notice it – not loud – did notice it – loud – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......

10.10 Was there anything else about the connection you'd like to mention? Yes – What? (Write in) ............................................. ............................................. ............................................. ..................... Coding instructions: – is there a written comment? – does the comment apply to this call? – does it mention an impairment? – has it been mentioned already? – other (specify) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......

16

3.2

Metody obiektywne

W przeciwieństwie do metod subiektywnych metody obiektywne są tanie, a ich największą zaletą jest prostota. Przede wszystkim nie pochłaniają tyle czasu, ponieważ nie wymagają wcześniejszych przygotowań, szkoleń ani zaangażowania dużej liczby osób. Cechą charakterystyczną tych metod jest wyznaczenie różnicy, według przyjętych kryteriów, między wartością wybranego lub wybranych parametrów sygnału wzorcowego (odniesienia) i sygnału zdegradowanego (przesłanego przez system) oraz ocena tej różnicy w mierze subiektywnej. Ogólna koncepcja szacowania jakości mowy została zaproponowana przez Karjalainena [27] w 1985 roku (Rysunek 10).

Rysunek 10 Ogólna koncepcja metody porównawczej szacowania jakości mowy Do najczęściej wykorzystywanych obiektywnych metod porównawczych należą: 1) Metoda PSQM (ang. Psycho-Acoustic Speech Quality Measure) 2) Metoda PAMS (ang. Perceptual Analysis Measurement System) 3) Metoda PESQ (ang. Perceptual Evaluation of Speech Quality)

3.2.1

Obiektywna metoda porównawcza PSQM

W latach 1993-1996 organizacja ITU podjęła prace na oceną istniejących obiektywnych metod badania jakości mowy z punktu widzenia ich korelacji z subiektywną percepcją ludzką. Najwyższą ocenę uzyskała metoda PSQM (ang. Perceptual Speech Quality Measure) opracowana przez zespól w składzie J. G. Beerend i J. A. Stemerdink z instytutu KPN Reserarch w Holandii [28]. W konsekwencji metoda ta została zatwierdzona przez ITU i opublikowana jako zalecenie P.861 w 1996 r.[12] Metoda PSQM służy do badania jakości układów kodowania/dekodowania sygnałów mowy przeznaczonych do pracy w paśmie telefonicznym 300 ÷ 3400 Hz. Opis metody zawarto w zaleceniu ITU-T P.861 [12]. W swej koncepcji polega na porównywaniu wzorcowego sygnału wejściowego x[t] z wyjściowym sygnałem y[t] zdegradowanym po przejściu przez badany układ (Rysunek 11).

17

Rysunek 11 Koncepcja pomiaru jakości transmisji sygnału mowy metodą PSQM W związku z tym, że percepcja sygnału mowy jest zróżnicowana w zależności od jego częstotliwości i mocy – metoda ta zamienia, poprzez serię procesów przekształcających zdegradowany sygnał wyjściowy y[t] oraz wejściowy sygnał odniesienia x[t] na wewnętrzną reprezentację psychofizyczną w następujący sposób: -

odwzorowanie czasowo-częstotliwościowe sygnału, przeskalowanie częstotliwości, przeskalowanie poziomu natężenia dźwięku

1.

Odwzorowanie czasowo-częstotliwościowe sygnału Operacja ta jest realizowana za pomocą ramkowania sygnału oknem Hanninga o czasie trwania 32 ms (N=256 próbek przy częstotliwości sygnału 8 kHz), z którego wyliczana jest N-punktowa porównawcza krótkookresowa dyskretna transformata Fouriera, a na jej podstawie krótkookresowa moc odwzorowywanego sygnału.

2.

Przeskalowanie częstotliwości sygnału Przeskalowanie częstotliwości sygnału jest realizowane poprzez filtrację za pomocą filtrów barkowych. Do sygnału dodawany jest szum Hotha modelujący zakłócanie sygnału szumami z otoczenia docierającymi do mikrofonu słuchawki telefonu.

3.

Przeskalowanie poziomu natężenia głosu W celu uwzględnienia subiektywnego odczucia głośności i jego nieliniowego charakteru w funkcji częstotliwości, następuje przeskalowanie poziomu natężenia głosu w decybelach na poziom głośności wyrażany w fonach, a następnie wyrażenie tej głośności w skali sonowej.

4.

Określenie stopnia degradacji sygnału mowy Na podstawie różnic w wewnętrznej reprezentacji obu sygnałów określony jest stopień degradacji sygnału mowy, której miarą jakości jest wskaźnik PSQM, który przyjmuje wartości w skali od 0 (brak zniekształceń – jakość doskonała) do 6,5 (jakość najgorsza).

5.

Przekształcenie wskaźnika PSQM na subiektywną miarę MOS.

Rysunek 12 przedstawia zasadę działania metody PSQM w postaci schematu blokowego.

18

Rysunek 12 Schemat blokowy zasady działania metody PSQM Jako wejściowy sygnał odniesienia wykorzystywana jest sztuczna mowa opisana w zaleceniu ITU-T P.50[1]. Ze względu na to, iż metoda ta jest wrażliwa na używany język, testy należy przeprowadzić zarówno dla mowy męskiej jak i żeńskiej. Metoda PSQM jest wiarygodna przy badaniu próbek głosu przetworzonych przez następujące elementy sieci: • kodeki kształtu fali (kodeki typu G.711, G.726); • kodeki hybrydowe o przepływności powyżej 4 kbps (kodeki typu G.729a, G723.1 o szybkości 5,3 i 6,3 oraz kodek G.728); • kodeki o zmiennych przepływnościach informacyjnych; • transkodery (konwersja z jednej postaci cyfrowej na inną). Metody PSQM nie należy stosować przy określaniu wpływu następujących czynników sieci: • opóźnienia; • fluktuacji opóźnienia (jitter); • wzmocnienia/słumienia sygnału; • jednoczesnego mówienia przez wiele osób; • niedopasowania szybkości bitowej pomiędzy koderem i dekoderem; • szum tłowego; • muzyki jako sygnału wejściowego; • kodeki hybrydowe o przepływności mniejszej niż 4 kbps;

3.2.2

Obiektywna metoda porównawcza PSQM +

W związku z dynamicznym rozwojem sieci NGN wzrosło zapotrzebowanie na tanie metody badania jakości mowy przesyłanej przez sieć. Metoda PSQM, jako łatwa i tania w realizacji, uzyskała akceptację. Stała się popularna nie tylko przy badaniach jakości mowy dla poszczególnych kodeków, ale nastąpiły również próby adaptacji tej metody do badania jakości mowy przesyłanej przez sieć, w tym również sieci IP. W tym przypadku główną wadą metody PSQM stało się nieuwzględnienie wpływu utraty pakietów na jakość przesyłanej mowy. Uwzględniając tę niedogodność, J.G. Beerend, E.J. Mejer i A.P. ekstra opracowali rozszerzony model PSQM. Model ten, po akceptacji ITU Study Group 12 został opublikowany w 1997 r. jako COM 12-20-E [13]. Model ten uzyskał nazwę PSQM+ i stał się preferowaną metodą badania jakości mowy w otoczeniu sieciowym.

3.2.3

Obiektywna metoda porównawcza PAMS

Metoda PAMS (ang. Perceptual Analysis Measurement System) opracowana została przez zespół PsyTechnics utworzony przez British Telecommunications. [29].

19

Metoda PAMS w wielu aspektach podobna jest do metody PSQM, proponuje jednak inną technikę przetwarzania sygnałów oraz inny model percepcyjny. Rysunek 13 przedstawia poszczególne bloki funkcjonalne, wchodzące w skład układu do pomiaru jakości mowy za pomocą metody PAMS. Wyniki otrzymane metodą PAMS zawierają się w przedziale od 0 do 5 i korelują ze skalą MOS. W szczególności metoda PAMS dostarcza wyniki jakości odsłuchu (ang. Listening Quality Score) oraz wyniki wysiłku wkładanego w zrozumiałość (ang. Listening Effort Score), które odpowiadają skali oceny, stosowanej w metodzie bezwzględnej oceny jakości mowy.

Rysunek 13 Schemat blokowy pomiaru jakości mowy za pomocą metody PAMS W metodzie PAMS można wydzielić następujące etapy obróbki sygnałów: 1) Korygowanie sygnałów – dokonywane poprzez wyrównanie ich opóźnień, wyrównanie poziomów oraz wyrównanie ich widma w celu zniwelowania efektów opóźnienia, całkowitego wzmocnienia/stłumienia sygnału oraz analogowego filtrowania telefonicznego. 2) Transformata słyszalności – proces modelowania odbioru mowy poprzez porównanie obu sygnałów w dziedzinie czasu i częstotliwości. W celu odwzorowania sygnałów w dziedzinę ludzkiej percepcji słuchowej, metoda PAMS dzieli sygnał mowy na 19 pasm. W końcowym etapie wyznaczana jest tzw. powierzchnia wrażenia (ang. Sensation Surface) 3) Parametryzacja błędu – wyznaczenie różnicy między wartościami tych samych parametrów (istotnych dla oceny jakości sygnałów mowy) w obu sygnałach. Wynikiem odejmowania jest tzw. powierzchnia błędu (ang. Error Surface) reprezentującą wszystkie błędy wpływające na jakość odbioru mowy. Amplituda zdarzeń występujących na powierzchni błędu odpowiada poziomowi percepcji tych zdarzeń przez człowieka. 4) Odwzorowanie nieliniowe – odwzorowanie parametrów związanych z błędami odbioru mowy na tzw. predyktywną skalę ocen. Odwzorowanie to następuje przez korelację uzyskanych wyników z wynikami badań subiektywnych umieszczonych w bazie danych. PAMS pozwala analizować wpływ na jakość mowy następujących czynników: •

kodeków kształtu fali (kodeki typu G.711, G.726);

20

• • • • • • • •

kodeków hybrydowych o przepływności powyżej 4 kbps (kodeki typu G.729a, G723.1 o szybkości 5,3 i 6,3 oraz kodek G.728); kodeków o zmiennych szybkościach; transkoderów (konwersja z jednej postaci cyfrowej na inną); indywidualnych cech mówiącego (np. język); szybkich zmian opóźnienia odbieranego sygnału; czasu odcinania (ang. time clipping); poziomu odcinania (ang. level clipping); szumów.

Nie pozwala natomiast analizować wpływu następujących czynników na jakość mowy: • • • • • • •

3.2.4

wolnych zmian opóźnienia odbieranego sygnału; fluktuacji opóźnienia (jitter); wzmocnienia/słumienia sygnału w sieci; niedopasowania szybkości bitowej pomiędzy koderem i dekoderem; obecności szumu tła w sygnale wejściowym; filtracji sygnału w telefonach analogowych; muzyki jako sygnału wejściowego.

Obiektywna metoda porównawcza PESQ

Metoda PESQ jest rozwinięciem metod PSQM oraz PAMS, a jej opis zawiera zalecenie ITU-T P.862 [14] [15]. W większości – warunki i technika badania jakości mowy w przypadku tej metody są zbliżone do metody PSQM. Różnica polega na tym, że w metodzie PESQ dołączone są metody mające na celu wyrównanie opóźnienia oraz mocy pomiędzy dwoma sygnałami. (Rysunek 14)

Rysunek 14 Schemat blokowy pomiaru jakości mowy za pomocą metody PESQ W pierwszej fazie badania dokonuje się pomiaru obu sygnałów pod względem opóźnienia oraz mocy. Po wyznaczeniu różnicy w tych parametrach, parametry te zostają wyrównane, co pozwala na stosowanie tej metody do badania jakości mowy podczas jej 21

transmisji. Pozostała część badania przebiega podobnie jak w metodzie PSQM. Sygnały są zamieniane na reprezentacje wewnętrzne, po czym wyznaczone różnice służą do wyznaczenia i określenia jakości mowy. Wynikiem porównania obu sygnałów jest ocena jakości mowy transmitowanej w skali od -0,5 do 4,5. Otrzymany wynik prezentowany jest w skali oceny PESQ od -0,5 do 4,5 (kalibrowana za pomocą bazy wyników uzyskanych z testów subiektywnych) lub według skorelowanej skali MOS od 1 do 5 zgodnie z ITU-T P.800 [10]. PESQ pozwala analizować wpływ na jakość mowy następujących czynników: • • • • • • • • •

kodeków kształtu fali (kodeki typu G.711, G.726), kodeków hybrydowych o przepływności powyżej 4 kbps (kodeki typu G.729a, G723.1 o szybkości 5,3 i 6,3 oraz kodek G.728), kodeków o zmiennych szybkościach, transkoderów (konwersja z jednej postaci cyfrowej na inną), indywidualnych cech mówiącego (np. język), szybkich zmian opóźnienia odbieranego sygnału, czasu odcinania (ang. time clipping), poziomu odcinania (ang. level clipping), szumów.

PESQ nie pozwala analizować wpływu następujących czynników na jakość mowy: • • • •

3.2.5

wzmocnienia/słumienia sygnału w sieci; niedopasowania szybkości bitowej pomiędzy koderem i dekoderem; obecności szumu tła w sygnale wejściowym; muzyki jako sygnału wejściowego.

Obiektywna metoda bezwzględnej oceny jakości mowy INMD

Metoda INMD w porównaniu do poprzednich dwóch metod nie wymaga sygnału odniesienia. Opis metody zawiera zalecenie ITU-T P.561 [6]. Służy ona do pomiaru anomalii występujących w sieci, mających bezpośredni wpływ na jakość mowy. Niewątpliwą zaletą metody jest fakt, że umożliwia ona przeprowadzenie badania na istniejącym już łańcuchu, podczas jego normalnej pracy. Metoda INMD umożliwia analizę parametrów związanych z charakterystyką mowy i szumów oraz z charakterystyką echa. Parametry, które możemy zmierzyć przy użyciu metody INMD są ściśle związane z parametrami występującymi w E-modelu. Pozwala to na uznanie tej metody za uproszczony odpowiednik pomiarowy E-modelu, jednak z takim wyjątkiem, że metoda INMD nie nadaje się do użycia, jeśli w sieci występują kodeki o małej przepływności binarnej. Badania można przeprowadzić na różnego rodzaju sieciach. W zależności od ich rodzaju stworzono następujące klasy pomiaru: 1) Klasa A – pomiary dotyczą sieci, w których występują połączenia analogowe i/lub PCM 64 kbit/s, ale bez urządzeń eliminacji echa oraz bez koderów o małej przepływności binarnej. Dodatkowo opóźnienie transmisji sygnału w obie strony nie może przekroczyć 50 ms. Klasa A dotyczy pomiarów sieci krajowych. 2) Klasa B – pomiary przeznaczone są do sieci, w których opóźnienie w transmisji sygnału w obie strony wynosi nie więcej niż 150ms. Możliwe jest stosowanie w tych sieciach urządzeń kontroli eliminacji echa.

22

3) Klasa C – pomiary przeznaczone są do sieci, których maksymalne opóźnienie w transmisji sygnału nie przekracza 1000ms. Sieci takie mogą zawierać urządzenia kontroli i eliminacji echa oraz urządzenia do kompresji mowy. Nie mogą natomiast występować kodery mowy. 4) Klasa D – są to sieci, w których występują kodery o małej przepływności binarnej (np. koder typu LPC).

3.2.6

E - model

E-model opracowany przez Europejski Instytut Standardów Telekomunikacyjnych (ETSI) jest narzędziem dla planistów oraz operatorów nowoczesnych sieci telekomunikacyjnych pomocnym w ocenie jakości mowy. Koncepcja metody E-modelu, przedstawiona w dokumencie ETSI EG 201 05 [16] i w zaleceniu ITU-T G.107 [4] (Rysunek 15), polega na modelowaniu wpływu parametrów transmisyjnych sieci telekomunikacyjnej na jakość odbioru mowy.

Rysunek 15 Koncepcja metody E-modelu E-model uwzględnia szereg zjawisk występujących w łączu telekomunikacyjnym, przyczyniających się do pogorszenia jakości mowy. Pozwala na wyznaczenie parametrów oraz granicznych wartości głównych czynników, mających wpływ na jakość transmisji w sieciach telekomunikacyjnych: • • • • •

stosowanych kodeków, poziomu kontroli echa, opóźnienia, strat pakietów łączenia różnych metod kodowania w łańcuchu teletransmisyjnym.

Parametry wejściowe E-modelu określane są na podstawie konfiguracji badanego systemu. Algorytm zastosowany w E-modelu podlega stałej ewolucji tak, aby estymowana średnia oceny słuchaczy MOS była jak najbardziej skorelowana z oceną uzyskaną za pomocą testów subiektywnych. Wyniki uzyskane z pomiarów metodami subiektywnymi i obiektywnymi wykorzystywane są do aktualizowania tabel ze współczynnikiem zniekształceń transmisyjnych Ie. Umiejscowienie E-modelu w środowisku pomiarowym i jego powiązania z metodami subiektywnymi i obiektywnymi przedstawia Rysunek 16

23

Rysunek 16 Powiązania E-modelu z subiektywnymi i obiektywnymi metodami oceny jakości mowy Należy nadmienić, że E-model wywodzi się z modelu OPINE (Japonia) gdzie po raz pierwszy została rozwinięta koncepcja współczynnika jakości R. Z tego modelu wzięta jest fundamentalna zasada dla E-modelu:

Współczynniki psychologiczne są addytywne w skali psychologicznej. Współczynnik oceny jakości transmisji R (R-rating), odzwierciedlający efekty różnych rodzajów zniekształceń transmisji głosu w postaci addytywnych współczynników „psychologicznych", określony jest poniższą zależnością [4]: R = Ro − I s − I d − I e + A gdzie: Ro

-

Is

-

Id

-

Ie

-

A

-

współczynnik określający podstawowy stosunek mocy sygnału do mocy szumów tła i kanału, uwzględniający źródła hałasu, współczynnik pogorszenia jakości transmitowanej mowy, będący kombinacją wszystkich zniekształceń pojawiających się równocześnie z sygnałem mowy takich jak szumy kwantyzacji, nadmierna głośność, efekt lokalny czy sygnały wybierania tonowego, współczynnik pogorszenia jakości transmitowanej mowy spowodowany zbyt dużym bezwzględnym opóźnieniem wnoszonym w procesie przetwarzania i transmisji, uwzględniający echo mówcy oraz echo słuchacza, współczynnik pogorszenia jakości transmitowanej mowy, spowodowanego zniekształceniami transmisyjnymi wnoszonymi przez urządzenia takie jak kodery o małej przepływności binarnej; współczynnik ten uwzględnia również wpływ utraty pakietów w sieciach pakietowych. współczynnik korekcyjny zależny od specyfiki dostępu do łącza (np. systemy mobilne DECT, GSM, łącze satelitarne), będący wielkością dodatnią, pozwalający zrównoważyć czynniki osłabiające wówczas, jeśli występują dodatkowe korzyści wynikające z dostępu użytkowników do różnych systemów transmisji mowy (np. mobilność użytkownika dla telefonii bezprzewodowej) oraz akceptację niższej jakości przez abonentów. Dla tradycyjnej telefonii ma wartość 0.

24

Wszystkie wymienione składniki wzoru zdefiniowane są za pomocą szczegółowych wzorów lub wartości w zaleceniu ITU-T G.107 [4]. Współczynnik R można uzależnić od każdego pojedynczego parametru transmisji i tym samym określić wielkość zmian w jakości połączenia wywoływanych przez ten parametr.

3.2.6.1 Miary jakości estymowane na podstawie współczynnika R Współczynnik jakości transmisji R przyjmuje wartości od 0 do 100. Wielkość R = 0 oznacza skrajnie złą jakość a R = 100 odpowiada bardzo wysokiej jakości. Na podstawie wartości współczynnika R można estymować średnią ocenę słuchaczy MOS według poniższej formuły: 1  MOS = 1 + 0,035 ⋅ R + R ⋅ ( R − 60) ⋅ (100 − R) ⋅ 7 ⋅10 − 6 4,5 

dla R ≤ 0 dla 0 < R < 100 dla R ≥ 100

oraz takie metryki jak: • %GoB – procent audytorium, oceniającego jakość połączenia jako dobrą lub bardzo dobrą (ang. Percent Good or Better) • %PoW – procent audytorium, oceniającego jakość połączenia jako słabą lub złą (ang. Percent Poor or Worse) Wynikową skalę jakości zdefiniowaną przez zalecenie ITU-T G.109 [6] oraz jej powiązania z metrykami R, MOS, %GoB i %PoW przedstawia Rysunek 17.

Rysunek 17 Skala jakości E-modelu definiowana przez zalecenie ITU-T G.109. Granice pomiędzy stopniami zadowolenia użytkowników z ogólnej jakości połączenia należy traktować jako umowne, a skalę R jako ciągłą. Rysunek 18 oraz Rysunek 19 przedstawia odpowiednio metryki MOS oraz %GoB i %PoW w funkcji współczynnika R.

25

Rysunek 18 MOS jako funkcja współczynnika jakości transmisji R % 99 98 95 90

GoB

PoW

80 70 60 50 40 30 20 10 5 2 1

G.107_FB.1

0

20

40

60

80

100 R

Rysunek 19 GoB oraz PoW jako funkcje współczynnika jakości transmisji R

3.2.6.2 Elementy wskaźnika R dla sieci realizującej usługę VoIP Opracowane przez ITU rozszerzenia E-modelu uwzględniają również specyfikę zakłóceń występujących w sieciach pakietowych takich jak: - opóźnienia; - echo; - fluktuacje; - straty pakietów; - właściwości kodeków.

3.2.6.2.1

Echo

W E-modelu głównym parametrem oceniającym echo jest ocena głośności echa zdalnego TELR (ang. Talker Echo Loudness Rating), wyrażająca się jako suma ogólnej oceny głośności terminalu OLR (ang. Overall Loudness Rating) oraz tłumienia echa zdalnego EL (ang Echo Loss) (Rysunek 20). Subiektywną ocenę wpływu echa warunkują dwa główne czynniki: tłumienie echa i jego opóźnienie w stosunku do sygnału źródłowego. Im większy jest poziom sygnału echa i im dłuższe jest opóźnienie, tym gorzej oceniana jest jakość dźwięku (Rysunek 21). 26

100

E-model rating R

90

80

70

No talker echo TELR = 65 dB TELR = 55 dB TELR = 45 dB TELR = 35 dB TELR = 25 dB

60

50

0

50

100

150

200

250

300

350

400

450

500

Mouth-to-ear-delay/ms

G.108AMD.1_FI.1

Rysunek 20 Wpływ tłumienia echa na wskaźnik R oceny jakości mowy 100

E-model rating R

90

80

70

60

50

0

50

100

150

200

250

300

350

400

450

500

Mouth-to-ear-delay/ms

G.108AMD.1_FI.3

Talker echo Talker echo plus absolute delay

Rysunek 21 Wpływ echa i opóźnienia na wskaźnik R oceny jakości mowy 3.2.6.2.2

Opóźnienie i zmienność opóźnienia

Opóźnienie jest czynnikiem mającym duży wpływ na wartość R w E-modelu (Rysunek 22). We wzorze modelowane jest jako oddzielny wskaźnik Id. 100 95 90 85 80 R 75 70 65 60 55 50 100

200

300 400 Absolute delay (Ta) in ms

500

600 T1211140-99

Rysunek 22 Wpływ całkowitego opóźnienia (Ta) na wskaźnik R oceny jakości mowy 27

3.2.6.2.3

Współczynnik zniekształcenia wyposażenia Ie

Składniki Ie oraz A są nowymi elementami wprowadzonymi do E-modelu. Składnik Ie jest bezpośrednio zależny od zniekształceń wnoszonych przez kodeki łańcucha telekomunikacyjnego i wyrażany jest jako suma zniekształceń poszczególnych N kodeków, wchodzących w jego skład: N

Ie = ∑ Kn n =1

gdzie: Kn -

zniekształcenie wnoszone przez n-ty kodek.

W przypadku zastosowania kodeków tego samego typu: Ie = n ⋅ K gdzie: n -

liczba kodeków tego samego typu.

Wartości składnika Ie nie są powiązane z innymi wejściowymi parametrami. Zależą jedynie od rezultatów testów subiektywnej, średniej opinii użytkowników (MOS).

Tabela 6 zawiera ustalone wartości parametru K dla najpopularniejszych typów kodeków. Wyniki zaczerpnięto z zalecenia ITU-T G.113 [7].

Tabela 6. Wartości wskaźnika R dla różnych typów kodeków Typ kodeka

Przepływność [kbit/s]

Wartość Ie

Wartość R

G.711

64

0

94

G.726, G.727

40

2

92

G.721(1988), G.726, G.727

32

7

87

G.726, G.727

24

25

69

G.726, G.727

16

50

54

16

7

87

12.8

20

74

G.729

8

10

84

G.729-A + VAD

8

11

83

RPE-LTP

GSM 06.10, Full-rate

13

20

74

VSELP

GSM 06.20, Half-rate

5.6

23

71

ACELP

GSM 06.60, Enhanced Full Rate

12.2

5

89

ACELP

G.723.1

5.3

19

75

MP-MLQ

G.723.1

6.3

15

79

PCM

ADPCM

LD-CELP CS-ACELP

Odniesienie

G.728

28

3.2.6.2.4

Straty pakietów

Zalecenie ITU-T G.113 [7] zawiera szereg tabel podających wartość współczynnika Ie, przy występowaniu strat pakietów, dla różnych typów kodeków. 3.2.6.2.5

Współczynnik A

Współczynnik korygujący A nie ma powiązań z pozostałymi parametrami transmisji. Pewne wartości dla A zawiera Tabela 7. Należy jednak pamiętać, że te wartości, zaczerpnięte z zalecenia ITU-T G.107 [4], powinny być uznane jako bezwzględna górna granica dla A. Użycie konkretnej wartości współczynnika A dla danego połączenia zależy tylko i wyłącznie od decyzji planisty.

Tabela 7. Przykładowe wartości dla współczynnika A System komunikacji Tradycyjny (stacjonarny)

3.2.6.2.6

Maksymalne wartości dla A 0

Komórkowa sieć w budynkach (GSM)

5

Komórkowa w terenie i w pojazdach

10

Satelitarna

20

Wartości domyślne dla E-modelu

Dla parametrów wejściowych, użytych w E-modelu zostały ustalone wartości domyślne (Tabela 8). Zaleca się, aby używać poniższych wartości dla parametrów, których pomiarów nie wykonano lub nie zostały zawarte w innych dokumentach. Przy domyślnych wartościach parametrów przedstawionych w poniższej tabeli wartość R = 93,87. Odpowiada to jakości uzyskiwanej przy stosowaniu kodeka PCM zgodnego z zaleceniem G.711 i przyjmuje się ją jako punkt odniesienia przy porównywaniu innych konfiguracji.

Tabela 8. Wartości domyślne oraz dopuszczalne zakresy dla parametrów transmisji mowy Parametr

Tłumienność głośności przy nadawaniu Tłumienność głośności przy odbiorze Efekt lokalny mówcy Efekt lokalny słuchacza D-Współczynnik czułości mikrotelefonu w miejscu mówcy D-Współczynnik czułości mikrotelefonu w miejscu słuchacza Tłumienność głośności echa mówcy Ważona strata ścieżki echa Średnie jednostronne opóźnienie Obustronne całkowite opóźnienie Bezwzględne opóźnienie Jednostki zniekształceń kwantyzacji Osłabiające czynniki sprzętowe Moc szumu obwodu elektrycznego Szum tła po stronie słuchacza Poziom hałasu otoczenia po stronie mówcy Poziom hałasu otoczenia po stronie słuchacza Współczynnik oczekiwania

Symbol

Jednostka

Wartość domyślna

Dopuszczalny zakres

SLR RLR STMR LSTR Ds Dr TELR WEPL T Tr Ta qdu Ie Nc Nfor Ps Pr A

dB dB dB dB – – dB dB ms ms ms – – dBm0p dBmp dB(A) dB(A) –

+8 +2 15 18 3 3 65 110 0 0 0 1 0 −70 −64 35 35 0

0 ... +18 −5 ... +14 10 ... 20 13 ... 23 –3 ... +3 −3 ... +3 5 ... 65 5 ... 110 0 ... 500 0 ... 1000 0 ... 500 1 ... 14 0 ... 40 −80 ... −40 – 35 ... 85 35 ... 85 0 ... 20

29

3.2.6.3 Podsumowanie Pomimo tego, że E-model nie był dotąd weryfikowany w dziedzinie badań czy doświadczeń laboratoryjnych dla bardzo dużej liczby możliwych kombinacji parametrów wejściowych, pozostaje wiarygodny dla wielu kombinacji parametrów, które mają największe znaczenie dla projektantów sieci. Jednocześnie wiele innych kombinacji parametrów zostało poddanych w wątpliwość i obecnie prowadzone są badania w tej płaszczyźnie. Mając to na uwadze, w pewnych warunkach należy podchodzić z ostrożnością do wyników otrzymywanych przy użyciu E-modelu. Poniżej przedstawiono obszary, które są w trakcie badań i co za tym idzie nie są wiarygodne: - Ogólny poziom osłabiających czynników sprzętowych Pewne eksperymentalne badania zasugerowały, że ogólna tendencja dotycząca osłabiających czynników sprzętowych jest zbyt pesymistyczna, więc pewien margines bezpieczeństwa powinien być brany pod uwagę. − Ogólne bogactwo addytywności modelu E-model zakłada, że różnego typu osłabienia są addytywne na skalę współczynnika oceny jakości R. Ta teza nie została sprawdzona w wystarczająco satysfakcjonującym stopniu. − Zakres efektu lokalnego mówcy Pewne doświadczenia pokazują, że E-model pomija pewien pozorny wpływ efektu lokalnego występującego po stronie mówcy, mianowicie w koniunkcji z mocą szumu obwodu elektrycznego i hałasem otoczenia po stronie odbiorcy, a powolnym opóźnieniem pogłosu mówcy (