Audiosignāla ciparu kodēšana un kompresija IX
Audiosignala ciparu kodešana un kompresija IX
Pēc
dažādu runas un platjoslas audio kodēšanas un kompresijas
kodeku (sistēma koders + dekoders) aplūkošanas rakstu
sērijas nobeigumā pievērsta uzmanība platjoslas audio
kodeku atskaņojuma kvalitātes problēmām.
Video
vai audiosignālu kompresēšanas algoritmu un programmatūras
izstrādes procesā tiek pieņemta sākumdatu jeb parametru
kopa, piemēram, bitu skaits, kas atvēlēts vienas nolases
raksturošanai, kvantēšanas soļa lielums un raksturs,
kustību vektoru meklēšanas apgabals (kodējot
videosignālus!), Hafmana kodu grāmatas apjoms u. c. Taču
algoritms (piemēram, MUSICAM, ASPEC audio signāliem) ir kodeka
dvēsele! Audiosignālu gadījumā par svarīgu
sistēmas parametru jāuzskata pat koderā iebūvētais
cilvēka dzirdes aparāta (CDzA) modelis.
Šie
sākotnēji pieņemtie ļoti plašas izpratnes parametri
beigu beigās nonāk firmas (koncerna) kodeka standartā. Tie var
būt atšķirīgi, ja kodekus paredzēts izmantot
dažādos lietojumos. Piemēram, izstrādājot attēla
pārraides kodekus, svarīgi, vai tie paredzēti medicīnas
darbinieku vajadzībām, domāti masu medijiem, izklaidei vai arī
lietojumam jābūt universālam.
Tātad
šiem sākotnēji pieņemtajiem parametriem ir
ārkārtīgi liela nozīme algoritma praktiskajā
realizācijā. Tie nosaka kodeka datu apstrādi līdz pat
nepieciešamajam bitu plūsmas ātrumam un, kas pats
svarīgākais, beigu beigās arī attēla vai
atskaņojuma kvalitāti. Diemžēl, nav daudz
vispārēju likumu, piemēram, tādi kā Naikvista
kritērijs diskretizācijas frekvences izvēlē, kas dotu
ērtu iespēju visus šos daudzos sākotnējos parametrus
izvēlēties optimālus, vadoties no galvenā kodeka izejas
lieluma (attēls, atskaņojums) kvalitātes. Tas tāpēc,
ka pati kvalitāte ir pietiekoši sarežģīts
jēdziens un bieži tiek neviennozīmīgi vērtēta.
Tālāk tikai par AUDIO
Kā
ar atskaņojuma kvalitāti novērtēt dažādus
platjoslas kodēšanas un kompresijas algoritmus? Kuram algoritmam dot
priekšroku? Skaidrs, ka katrs no tiem, precīzāk, to praktiskais
izpildījums kodeks (piemēram, MPEG-1 II slānis, MPEG-2 BC,
MPEG-2 AAC, MPAC vai PAC, AC-3 u. c.) raksturīgs ar optimālo bitu
plūsmas ātrumu (kbit/s jeb kbps). Kaut gan sistēma spēj
darboties pie dažādiem ātrumiem, svarīga ir minimālā
bitu plūsma, pie kuras vēl saglabājas pārējie
sistēmas raksturojumi. Vēl labāk, ja dota kbps josla, kurā
šie raksturojumi nav sliktāki par sistēmas aprakstā
uzdotajiem lielumiem. Kāpēc tik liela vērība tiek
pievērsta bitu plūsmas ātrumam? Pavisam vienkārši
katrs pa gaisu ar elektromagnētisko jeb radio viļņu
palīdzību vai pa vadiem, vai kabeli pārraidītais vai
pārsūtītais bits maksā naudu!
Citi raksturojumi
Citi
(bet ne visi!) svarīgi sistēmas raksturlielumi kā,
piemēram, kodēšanas datu apstrādes aizture, kas
mērojama milisekundēs (20÷100 un vairāk ms
dažādiem algoritmiem) un ir nozīmīga, lai pārraide
notiktu t. s. reālajā laikā; kodeka komplicētības
pakāpe, ko var izteikt, piemēram, MIPS vienībās (sk. SP
1999/3, 24. lpp.); robustums, kura jēga tika skaidrota, aplūkojot
MPEG-4 VIDEO (SP 1999/1, 22. lpp.). Protams, pats galvenais raksturojums ir
atskaņojuma kvalitāte. Ar ko sākām, pie tā arī
nonācām!
Raksturojumu noteikšana
Bitu
plūsmas ātrumu var objektīvi un precīzi nomērīt,
MIPS (Millions of Instructions Per Second) skaitlis objektīvi
atkarīgs no nepieciešamā kodera procesora izvēles
(piemēram, DSP, RISC vai CISC tipa *) un tā noslogojuma utt. Bet
kā noteikt atskaņojuma kvalitāti? Situācija ir
bēdīga.
T.
Raidena 1996. gada pētījumi liecina, ka t. s. transparento
atskaņojuma kvalitāti no audio platjoslas koderiem, kuros
iebūvēts CDzA modelis, var iegūt visai plašā
signāla/trokšņa attiecības rajonā (no 13 līdz 90
dB!). Vēl vairāk noskaidrojās, ka analogam signālam
piemērojamās kvalitātes lielumu (nelineāro kropļojumu
koeficients, attiecība signāls/troksnis utt.) noteikšanas
metodes bieži nav atbilstošas, jo dod juceklīgus un
neadekvātus rezultātus [1].
* DSP Digital
Signal Processor
RISC Reduced
Instruction Set Computer
CISC Complex
Instruction Set Computer
Ko iesākt? - Lai visu izšķir auss!
Atliek
objektīvos mērījumus un novērtējumus aizstāt ar
dārgām un subjektīvām kvalitātes
vērtēšanas metodēm, izmantojot ekspertus. Šie
apsvērumi jau tika izteikti, aplūkojot runas koderu kvalitātes
kritērijus (sk. SP 1999/2, 18. lpp.) un ievedot īpašas uz
subjektīviem novērtējumiem bāzētas t. s. MOS (Mean
Opinion Score) balles, kuras šīs sērijas rakstos arī
izmantojām.
Piebilstot
šeit tomēr par videokodekiem, jāatzīmē, ka jau
pagājušās tūkstošgades pēdējās
dekādes vidū japāņu speciālisti digitālā TV
attēla kvalitātes noteikšanai arī izmantoja
subjektīvās kvalitātes vērtēšanas metodes, rezultātus
izteikdami DSCQS ballēs (sk., piemēram, [2]). Šai metodē
visu izšķir cilvēka acs!
Lai
atskaņojuma kvalitātes vērtētāju ekspertu
viedokļi būtu, cik nu tas iespējams, objektīvāki,
noklausīšanās procedūras tiek standartizētas. Protams,
var subjektīvos testus veikt jums vēlamā, neformālā
veidā, taču labāk tos organizēt, izmantojot ITU-R
rekomendācijas
ITU-R rekomendācijas
Platjoslas
audio kodeku atskaņojuma kvalitātes novērtēšanai
parasti izmanto ITU-R Rec. BS. 1116 [3] rekomendācijas, kas nosaka
noklausīšanās vidi un procedūras mazu neatbilstību
subjektīvam novērtējumam.
No MOS uz MSS
Minētās
rekomendācijas platjoslas audio kodekiem iesaka piemērot citu
subjektīvo atzīmi, t. s. MSS (Mean Subjective Score) balli.
Šīs balles iegūšanai ieteikts izmantot trīs stimulu
dubultslēptās references metodi. Pēc tās ekspertam dod
iespēju noklausīties trīs signālus (stimulus) jeb
skaņu fragmentus: A, B un C. Stimuls A ir nekodētais jeb dabiskais,
t. s. references signāls. B un C vai C un B stimuli satur
nejaušā secībā izvēlētu references signāla
atkārtojumu un kodēto (caur kodēšanas
dekodēšanas sistēmu izgājušo un atkal par analogo
pārveidoto) signālu, kura kvalitāti minētā metode
cenšas arī noskaidrot.
Dubultslēpts
Metodi
dēvē par dubultslēptu (burtiski: dubultaklu double blind)
tādēļ, ka to, kas ir B un kas ir C, nedrīkst zināt ne
saaicinātie eksperti, ne paši testa organizētāji. Pēc
visu trīs stimulu (atskaņoto skaņas signālu)
noklausīšanās ekspertam jāatpazīst B vai C kā
slēptā reference, bet neatbilstības kodētam signālam
jānovērtē pēc 41 punktu skalas (1. zīm.). Balli 5,0
eksperts dod noslēptam references signālam. Tā šai
subjektīvā eksperimentā iegūst MSS balli, kas vairs nav
absolūts vērtējums kā MOS balle, bet gan relatīvs
vērtējums attiecībā pret apslēpto references
signālu. Ekspertu ir daudz, tādēļ veic rezultāta
statistisko apstrādi, iegūstot vidējo (kopējo) balli un
tās kļūdu.
Transparenta skaņa
Šis
jēdziens šīs sērijas rakstos jau tika lietots. Šeit to
definēsim precīzāk. Kodētam signālam skaņas
kvalitāte tiek uzskatīta par transparentu (precīzāk,
gandrīz transparentu), ja pēc trīs stimulu dubultslēptās
references metodes iegūto rezultātu apstrādes
· noslēptā
references signāla kopējā MSS balles skaitliskā
vērtība atrodas kodētā signāla 95 procentu
ticamības intervālā
un
otrādi -
· ja
kodētā signāla MSS balles skaitliskā vērtība
atrodas references signāla 95 procentu ticamības intervālā.
Taču
tas paredzēts samērā nelielām neatbilstībām.
Lielāku neatbilstību salīdzināšanai
izrādījušās noderīgas ITU-T rekomendācijas
P.800/P.830. Ar tām pēc septiņu punktu CCR (Comparison
Category Rating) reitinga parasti salīdzina divas sistēmas, I un
II, novērtējot, kurai atskaņojuma kvalitāte labāka:
Tabula
1
CCR
salīdzināšanas kategoriju reitings
Balle Vērtējums
sistēmām I un II
+3 I daudz labāka par II
+2 I labāka par II
+1 I nedaudz labāka par II
0 I vienāda ar II
-1 I nedaudz sliktāka par
II
-2 I sliktāka par II
-3 I daudz sliktāka par
II
CCR
reitingu ērti lietot, ja kodēšanas sistēmas
atšķiras ar lielākām neatbilstībām un
jānovērtē, kurš no kodekiem labāks atskaņojuma
kvalitātes ziņā. Ar CCR, piemēram, novērtēti
WORLDSPACE satelītu komunikāciju sistēmu 16 kbps kodeki.
Subjektīvo testu trūkumi
Jebkuras
subjektīvās metodes vērtējuma rezultātus
jāpieņem ar zināmu piesardzību. Sevišķi tas
attiecas uz MSS ballēs izteiktajiem ekspertu kolektīva testu
rezultātiem. Jāizanalizē visi faktori, kas var iespaidot
ekspertu vērtējumu: testa signālu (skaņas fragmentu)
īpatnības, vietas (telpas) izvēle, kā arī
individuālais eksperta uztveres asums un izziņas spēja.
Vēl
jāņem vērā ekspertu atšķirīgos uzskatus.
Varbūt kāds slepus lobē noteiktu firmu vai koncernu kodeku
izgatavotāju?
Ir
norādes, ka sevišķi jutīgus un kaprīzus ekspertus, t.
s. zelta ausu īpašniekus no atskaņojuma
novērtēšanas seansiem parasti izraida.
un īpatnības
Novērots,
ka eksperti dažādi reaģē uz specifisko traucējumu
veidiem (artifacts), piemēram, priekšatbalsi (sk. SP 2000/1,
33. lpp.), nenomaskētiem granulāriem (kvantēšanas)
trokšņiem un izsitieniem jeb pacēlumiem (boosts) vai
vājinājumiem skaņas diapazona augšējās
frekvencēs.
Konstatēts,
ka ļoti liela nozīme ir atskaņojamā skaņas
signāla spiediena līmenim (skaļumam) un apkārtējā
fona trokšņu līmenim. Pārlieks skaļums rada
nevēlamus maskēšanas efektus, kas risinās jau
noklausīšanās telpā. Arī testa signāla
atskaņošanas veids var stipri ietekmēt ekspertam uztveramo
kvalitāti, jo skaļruņu radītie kropļojumi rodas ne
tikai tiešā veidā, bet arī kopiespaidā ar
noklausīšanās telpas skaņas enerģijas
saglabāšanās īpatnībām (reverberāciju).
Citas ITU rekomendācijas
Šīs
subjektīvo testu neprecizitātes rosināja izstrādāt
automātiskās kodēšanas sistēmu
mērīšanas paņēmienus, kas galu galā noveda pie
perceptuālās kodēšanas (t. i., tādas
kodēšanas, kuras koders satur CDzA modeli) kvalitātes standarta
ITU-R BS. 1387. Speciālisti neuzskata, ka tas viennozīmīgi aizvietos
subjektīvās atskaņojuma novērtēšanas metodes,
kaut arī darbs objektīvisma virzienā turpinās (sk. arī
ITU-R IWP10-11Q).
Divkanālu (parastā stereo) kodeku subjektīvais
vērtējums
Ideāli
būtu, ja, savstarpēji salīdzinot dažādus platjoslas
audio kodekus, MSS balles tiktu iegūtas vienā vietā un ar to
pašu ekspertu kolektīvu. ITU-R Rec. BS. 1116 standartam
atbilstošos noklausīšanās testos tika izmantoti
šādi divkanālu kodeki: MPEG-1 II slānis, MPEG-1 III
slānis, MPEG-2 AAC, Lucent Technologies PAC un Dolby AC-3.
Tika analizētas 17 kodēšanas algoritmu un bitu pārraides
ātruma kombinācijas, lietojot dažāda veida testa
signālus, kurus eksperti uzskatīja par būtiskiem.
Subjektīvo
testu rezultāti doti 1. zīm. un sagrupējami astoņās
kvalitātes grupās. MPEG-2 AAC un Dolby AC-3 kodeki ar bitu
plūsmu ātrumu 128 un 192 kbps atbilstoši
izrādījās ar vislabāko vidējo subjektīvo balli
(MMS), kas izteikta pēc diferences skalas, proti, labāku par 1,00.
MPEG-2 AAC algoritms pie 128 kbps bija vienīgais kodeks, kas
apmierināja stingrās ITU-R Rec. BS. 1115 kvalitātes
prasības perceptuāliem platjoslas audio koderiem. Tam netika
konstatēti tādi audio atskaņošanas veidi (testa
signāli, skaņas fragmenti), kuriem vērtējums būtu
sliktāks par 1,00. Ne par velti amerikāņi to
izvēlējušies par skaņas pavadījuma sistēmu HDTV
vajadzībām papildus Dolby AC-3!
Kas ir labākais?
Atskaņojuma
hierarhijas rinda, sākot ar labāko un beidzot ar sliktāko, ir
šāda:
· MPEG-2 AAC
· PAC
· MPEG-1 III
kvalitāte
· Dolby
AC-3
· MPEG-1 II
Trešās
kvalitātes grupas rezultātus var interpretēt sekojoši (sk.
1. zīm.). Lai sasniegtu MPEG-2 AAC līdzīgu atskaņojuma
kvalitāti (pie 96 kbps parastai stereo pārraidei) bitu plūsmas ātrumu
PAC, Dolby AC-3 un MPEG-1 II slāņa koderiem jāpalielina
atbilstoši par 32, 64 un 96 kbps uz parastā stereo pāri.
Taču
rezultāti jāuzskata galvenokārt kā bitu plūsmas
ātruma iespaida vērtējumi uz kodeka galveno izejas lielumu
atskaņojuma kvalitāti, bet nevis kā attiecīgā kodeka
vispusīgs novērtējums. Netika, piemēram, MPEG-1 II
slāņa kodeks novērtēts pie 256 kbps (t. i., pie mazāka
datu kompresijas faktora 6:1), kur tam jāskan labāk. Tāpat
netika novērtēti citi kodeki, piemēram, MPEG-2 BC u. c.
Daudzkanālu kodeku subjektīvais vērtējums
Perceptuālie
daudzkanālu kodeki (sk. SP 2000/4, 32. lpp.), kurus pēdējā
laikā aizvien plašāk izmanto multimedijiem un galvenokārt
kino un t. s. mājas teātrim, diemžēl analizēti
nepietiekami. Pieejami tikai EBU (European Broadcasting Union)
sponsorētie pētījumi, kuros subjektīvi novērtētas
Dolby AC-3 un MPEG-2 BC kodēšanas sistēmas bitu
plūsmu ātrumu robežās no 384 līdz 640 kbps
reālā laikā 5.1 kanāliem (sk. Tabulu 2).
Tabula
2
Daudzkanālu
kodeku Dolby AC-3 un MPEG-2 BC subjektīvais vērtējums [6]
Grupa Kodeks Bitu plūsmas
ātrums kbps MSS dif. sk. balle
1 MPEG-2 BC 640 -0,51
2 AC-3 448 -0,93
MPEG-2
BC 512 -0,99
3 AC-3 384 -1,17
MPEG-2
BC 384 -1,73 (!)
Subjektīvie
testi tika veikti, ievērojot ITU-R Rec. BS. 1116, bet pieckanālu
noklausīšanās telpa tika ierīkota saskaņā ar
ITU-R Rec. BS. 775. Tabulā dota vidējā MSS balle astoņiem
dažādiem skaņas ierakstu veidiem un testa signāliem.
Rezultāti apstiprina faktu, ka MPEG-2 BC sistēmas atskaņojuma
kvalitāte krīt ļoti strauji, samazinot bitu plūsmas
ātrumu. Svarīgi atzīmēt, ka neviena no astoņām
testa signālu un skaņas ierakstu veidu konfigurācijām
nespēja izpelnīties transparentai skaņai nepieciešamo ballu
skaitu!
Šajos
subjektīvajos vērtējumos Lucent PAC un MPEG-2 AAC kodeki
neesot pārstāvēti tādēļ, ka atbilstošās
sistēmas neesot bijušas pieejamas tirgū.
Arnolds
VĪTOLS
speciāli
SP
Informācijas
avoti:
1. T.
Ryden. Collected Papers on Dig. Audio Bit-Rate Reduction, 1996, 115-125 pp.
2. Ņåõķčźą źčķī č ŅĀ, 1997, ¹ 3, ń. 24-27.
3.
Methods for subjective assessment of small impairments in audio systems
including multichannel sound systems, ITU-R Rec. BS 1116, 1994.
4.
Method for objective measurements of perceived audio quality, ITU-R Rec. BS
1387.
5. G.
Soulodre et al. J. Aud. Eng. Soc. 1998, vol. 46, No. 3, 164-177 pp.
6. U.
Wustenhagen et al. Proc. 105th Conv. Aud. Eng. Soc. 1998, Sept., preprint 4813.
Pēc
dažādu runas un platjoslas audio kodēšanas un kompresijas
kodeku (sistēma koders + dekoders) aplūkošanas rakstu
sērijas nobeigumā pievērsta uzmanība platjoslas audio
kodeku atskaņojuma kvalitātes problēmām.
Video
vai audiosignālu kompresēšanas algoritmu un programmatūras
izstrādes procesā tiek pieņemta sākumdatu jeb parametru
kopa, piemēram, bitu skaits, kas atvēlēts vienas nolases
raksturošanai, kvantēšanas soļa lielums un raksturs,
kustību vektoru meklēšanas apgabals (kodējot
videosignālus!), Hafmana kodu grāmatas apjoms u. c. Taču
algoritms (piemēram, MUSICAM, ASPEC audio signāliem) ir kodeka
dvēsele! Audiosignālu gadījumā par svarīgu
sistēmas parametru jāuzskata pat koderā iebūvētais
cilvēka dzirdes aparāta (CDzA) modelis.
Šie
sākotnēji pieņemtie ļoti plašas izpratnes parametri
beigu beigās nonāk firmas (koncerna) kodeka standartā. Tie var
būt atšķirīgi, ja kodekus paredzēts izmantot
dažādos lietojumos. Piemēram, izstrādājot attēla
pārraides kodekus, svarīgi, vai tie paredzēti medicīnas
darbinieku vajadzībām, domāti masu medijiem, izklaidei vai arī
lietojumam jābūt universālam.
Tātad
šiem sākotnēji pieņemtajiem parametriem ir
ārkārtīgi liela nozīme algoritma praktiskajā
realizācijā. Tie nosaka kodeka datu apstrādi līdz pat
nepieciešamajam bitu plūsmas ātrumam un, kas pats
svarīgākais, beigu beigās arī attēla vai
atskaņojuma kvalitāti. Diemžēl, nav daudz
vispārēju likumu, piemēram, tādi kā Naikvista
kritērijs diskretizācijas frekvences izvēlē, kas dotu
ērtu iespēju visus šos daudzos sākotnējos parametrus
izvēlēties optimālus, vadoties no galvenā kodeka izejas
lieluma (attēls, atskaņojums) kvalitātes. Tas tāpēc,
ka pati kvalitāte ir pietiekoši sarežģīts
jēdziens un bieži tiek neviennozīmīgi vērtēta.
Tālāk tikai par AUDIO
Kā
ar atskaņojuma kvalitāti novērtēt dažādus
platjoslas kodēšanas un kompresijas algoritmus? Kuram algoritmam dot
priekšroku? Skaidrs, ka katrs no tiem, precīzāk, to praktiskais
izpildījums kodeks (piemēram, MPEG-1 II slānis, MPEG-2 BC,
MPEG-2 AAC, MPAC vai PAC, AC-3 u. c.) raksturīgs ar optimālo bitu
plūsmas ātrumu (kbit/s jeb kbps). Kaut gan sistēma spēj
darboties pie dažādiem ātrumiem, svarīga ir minimālā
bitu plūsma, pie kuras vēl saglabājas pārējie
sistēmas raksturojumi. Vēl labāk, ja dota kbps josla, kurā
šie raksturojumi nav sliktāki par sistēmas aprakstā
uzdotajiem lielumiem. Kāpēc tik liela vērība tiek
pievērsta bitu plūsmas ātrumam? Pavisam vienkārši
katrs pa gaisu ar elektromagnētisko jeb radio viļņu
palīdzību vai pa vadiem, vai kabeli pārraidītais vai
pārsūtītais bits maksā naudu!
Citi raksturojumi
Citi
(bet ne visi!) svarīgi sistēmas raksturlielumi kā,
piemēram, kodēšanas datu apstrādes aizture, kas
mērojama milisekundēs (20÷100 un vairāk ms
dažādiem algoritmiem) un ir nozīmīga, lai pārraide
notiktu t. s. reālajā laikā; kodeka komplicētības
pakāpe, ko var izteikt, piemēram, MIPS vienībās (sk. SP
1999/3, 24. lpp.); robustums, kura jēga tika skaidrota, aplūkojot
MPEG-4 VIDEO (SP 1999/1, 22. lpp.). Protams, pats galvenais raksturojums ir
atskaņojuma kvalitāte. Ar ko sākām, pie tā arī
nonācām!
Raksturojumu noteikšana
Bitu
plūsmas ātrumu var objektīvi un precīzi nomērīt,
MIPS (Millions of Instructions Per Second) skaitlis objektīvi
atkarīgs no nepieciešamā kodera procesora izvēles
(piemēram, DSP, RISC vai CISC tipa *) un tā noslogojuma utt. Bet
kā noteikt atskaņojuma kvalitāti? Situācija ir
bēdīga.
T.
Raidena 1996. gada pētījumi liecina, ka t. s. transparento
atskaņojuma kvalitāti no audio platjoslas koderiem, kuros
iebūvēts CDzA modelis, var iegūt visai plašā
signāla/trokšņa attiecības rajonā (no 13 līdz 90
dB!). Vēl vairāk noskaidrojās, ka analogam signālam
piemērojamās kvalitātes lielumu (nelineāro kropļojumu
koeficients, attiecība signāls/troksnis utt.) noteikšanas
metodes bieži nav atbilstošas, jo dod juceklīgus un
neadekvātus rezultātus [1].
* DSP Digital
Signal Processor
RISC Reduced
Instruction Set Computer
CISC Complex
Instruction Set Computer
Ko iesākt? - Lai visu izšķir auss!
Atliek
objektīvos mērījumus un novērtējumus aizstāt ar
dārgām un subjektīvām kvalitātes
vērtēšanas metodēm, izmantojot ekspertus. Šie
apsvērumi jau tika izteikti, aplūkojot runas koderu kvalitātes
kritērijus (sk. SP 1999/2, 18. lpp.) un ievedot īpašas uz
subjektīviem novērtējumiem bāzētas t. s. MOS (Mean
Opinion Score) balles, kuras šīs sērijas rakstos arī
izmantojām.
Piebilstot
šeit tomēr par videokodekiem, jāatzīmē, ka jau
pagājušās tūkstošgades pēdējās
dekādes vidū japāņu speciālisti digitālā TV
attēla kvalitātes noteikšanai arī izmantoja
subjektīvās kvalitātes vērtēšanas metodes, rezultātus
izteikdami DSCQS ballēs (sk., piemēram, [2]). Šai metodē
visu izšķir cilvēka acs!
Lai
atskaņojuma kvalitātes vērtētāju ekspertu
viedokļi būtu, cik nu tas iespējams, objektīvāki,
noklausīšanās procedūras tiek standartizētas. Protams,
var subjektīvos testus veikt jums vēlamā, neformālā
veidā, taču labāk tos organizēt, izmantojot ITU-R
rekomendācijas
ITU-R rekomendācijas
Platjoslas
audio kodeku atskaņojuma kvalitātes novērtēšanai
parasti izmanto ITU-R Rec. BS. 1116 [3] rekomendācijas, kas nosaka
noklausīšanās vidi un procedūras mazu neatbilstību
subjektīvam novērtējumam.
No MOS uz MSS
Minētās
rekomendācijas platjoslas audio kodekiem iesaka piemērot citu
subjektīvo atzīmi, t. s. MSS (Mean Subjective Score) balli.
Šīs balles iegūšanai ieteikts izmantot trīs stimulu
dubultslēptās references metodi. Pēc tās ekspertam dod
iespēju noklausīties trīs signālus (stimulus) jeb
skaņu fragmentus: A, B un C. Stimuls A ir nekodētais jeb dabiskais,
t. s. references signāls. B un C vai C un B stimuli satur
nejaušā secībā izvēlētu references signāla
atkārtojumu un kodēto (caur kodēšanas
dekodēšanas sistēmu izgājušo un atkal par analogo
pārveidoto) signālu, kura kvalitāti minētā metode
cenšas arī noskaidrot.
Dubultslēpts
Metodi
dēvē par dubultslēptu (burtiski: dubultaklu double blind)
tādēļ, ka to, kas ir B un kas ir C, nedrīkst zināt ne
saaicinātie eksperti, ne paši testa organizētāji. Pēc
visu trīs stimulu (atskaņoto skaņas signālu)
noklausīšanās ekspertam jāatpazīst B vai C kā
slēptā reference, bet neatbilstības kodētam signālam
jānovērtē pēc 41 punktu skalas (1. zīm.). Balli 5,0
eksperts dod noslēptam references signālam. Tā šai
subjektīvā eksperimentā iegūst MSS balli, kas vairs nav
absolūts vērtējums kā MOS balle, bet gan relatīvs
vērtējums attiecībā pret apslēpto references
signālu. Ekspertu ir daudz, tādēļ veic rezultāta
statistisko apstrādi, iegūstot vidējo (kopējo) balli un
tās kļūdu.
Transparenta skaņa
Šis
jēdziens šīs sērijas rakstos jau tika lietots. Šeit to
definēsim precīzāk. Kodētam signālam skaņas
kvalitāte tiek uzskatīta par transparentu (precīzāk,
gandrīz transparentu), ja pēc trīs stimulu dubultslēptās
references metodes iegūto rezultātu apstrādes
· noslēptā
references signāla kopējā MSS balles skaitliskā
vērtība atrodas kodētā signāla 95 procentu
ticamības intervālā
un
otrādi -
· ja
kodētā signāla MSS balles skaitliskā vērtība
atrodas references signāla 95 procentu ticamības intervālā.
Taču
tas paredzēts samērā nelielām neatbilstībām.
Lielāku neatbilstību salīdzināšanai
izrādījušās noderīgas ITU-T rekomendācijas
P.800/P.830. Ar tām pēc septiņu punktu CCR (Comparison
Category Rating) reitinga parasti salīdzina divas sistēmas, I un
II, novērtējot, kurai atskaņojuma kvalitāte labāka:
Tabula
1
CCR
salīdzināšanas kategoriju reitings
Balle Vērtējums
sistēmām I un II
+3 I daudz labāka par II
+2 I labāka par II
+1 I nedaudz labāka par II
0 I vienāda ar II
-1 I nedaudz sliktāka par
II
-2 I sliktāka par II
-3 I daudz sliktāka par
II
CCR
reitingu ērti lietot, ja kodēšanas sistēmas
atšķiras ar lielākām neatbilstībām un
jānovērtē, kurš no kodekiem labāks atskaņojuma
kvalitātes ziņā. Ar CCR, piemēram, novērtēti
WORLDSPACE satelītu komunikāciju sistēmu 16 kbps kodeki.
Subjektīvo testu trūkumi
Jebkuras
subjektīvās metodes vērtējuma rezultātus
jāpieņem ar zināmu piesardzību. Sevišķi tas
attiecas uz MSS ballēs izteiktajiem ekspertu kolektīva testu
rezultātiem. Jāizanalizē visi faktori, kas var iespaidot
ekspertu vērtējumu: testa signālu (skaņas fragmentu)
īpatnības, vietas (telpas) izvēle, kā arī
individuālais eksperta uztveres asums un izziņas spēja.
Vēl
jāņem vērā ekspertu atšķirīgos uzskatus.
Varbūt kāds slepus lobē noteiktu firmu vai koncernu kodeku
izgatavotāju?
Ir
norādes, ka sevišķi jutīgus un kaprīzus ekspertus, t.
s. zelta ausu īpašniekus no atskaņojuma
novērtēšanas seansiem parasti izraida.
un īpatnības
Novērots,
ka eksperti dažādi reaģē uz specifisko traucējumu
veidiem (artifacts), piemēram, priekšatbalsi (sk. SP 2000/1,
33. lpp.), nenomaskētiem granulāriem (kvantēšanas)
trokšņiem un izsitieniem jeb pacēlumiem (boosts) vai
vājinājumiem skaņas diapazona augšējās
frekvencēs.
Konstatēts,
ka ļoti liela nozīme ir atskaņojamā skaņas
signāla spiediena līmenim (skaļumam) un apkārtējā
fona trokšņu līmenim. Pārlieks skaļums rada
nevēlamus maskēšanas efektus, kas risinās jau
noklausīšanās telpā. Arī testa signāla
atskaņošanas veids var stipri ietekmēt ekspertam uztveramo
kvalitāti, jo skaļruņu radītie kropļojumi rodas ne
tikai tiešā veidā, bet arī kopiespaidā ar
noklausīšanās telpas skaņas enerģijas
saglabāšanās īpatnībām (reverberāciju).
Citas ITU rekomendācijas
Šīs
subjektīvo testu neprecizitātes rosināja izstrādāt
automātiskās kodēšanas sistēmu
mērīšanas paņēmienus, kas galu galā noveda pie
perceptuālās kodēšanas (t. i., tādas
kodēšanas, kuras koders satur CDzA modeli) kvalitātes standarta
ITU-R BS. 1387. Speciālisti neuzskata, ka tas viennozīmīgi aizvietos
subjektīvās atskaņojuma novērtēšanas metodes,
kaut arī darbs objektīvisma virzienā turpinās (sk. arī
ITU-R IWP10-11Q).
Divkanālu (parastā stereo) kodeku subjektīvais
vērtējums
Ideāli
būtu, ja, savstarpēji salīdzinot dažādus platjoslas
audio kodekus, MSS balles tiktu iegūtas vienā vietā un ar to
pašu ekspertu kolektīvu. ITU-R Rec. BS. 1116 standartam
atbilstošos noklausīšanās testos tika izmantoti
šādi divkanālu kodeki: MPEG-1 II slānis, MPEG-1 III
slānis, MPEG-2 AAC, Lucent Technologies PAC un Dolby AC-3.
Tika analizētas 17 kodēšanas algoritmu un bitu pārraides
ātruma kombinācijas, lietojot dažāda veida testa
signālus, kurus eksperti uzskatīja par būtiskiem.
Subjektīvo
testu rezultāti doti 1. zīm. un sagrupējami astoņās
kvalitātes grupās. MPEG-2 AAC un Dolby AC-3 kodeki ar bitu
plūsmu ātrumu 128 un 192 kbps atbilstoši
izrādījās ar vislabāko vidējo subjektīvo balli
(MMS), kas izteikta pēc diferences skalas, proti, labāku par 1,00.
MPEG-2 AAC algoritms pie 128 kbps bija vienīgais kodeks, kas
apmierināja stingrās ITU-R Rec. BS. 1115 kvalitātes
prasības perceptuāliem platjoslas audio koderiem. Tam netika
konstatēti tādi audio atskaņošanas veidi (testa
signāli, skaņas fragmenti), kuriem vērtējums būtu
sliktāks par 1,00. Ne par velti amerikāņi to
izvēlējušies par skaņas pavadījuma sistēmu HDTV
vajadzībām papildus Dolby AC-3!
Kas ir labākais?
Atskaņojuma
hierarhijas rinda, sākot ar labāko un beidzot ar sliktāko, ir
šāda:
· MPEG-2 AAC
· PAC
· MPEG-1 III
kvalitāte
· Dolby
AC-3
· MPEG-1 II
Trešās
kvalitātes grupas rezultātus var interpretēt sekojoši (sk.
1. zīm.). Lai sasniegtu MPEG-2 AAC līdzīgu atskaņojuma
kvalitāti (pie 96 kbps parastai stereo pārraidei) bitu plūsmas ātrumu
PAC, Dolby AC-3 un MPEG-1 II slāņa koderiem jāpalielina
atbilstoši par 32, 64 un 96 kbps uz parastā stereo pāri.
Taču
rezultāti jāuzskata galvenokārt kā bitu plūsmas
ātruma iespaida vērtējumi uz kodeka galveno izejas lielumu
atskaņojuma kvalitāti, bet nevis kā attiecīgā kodeka
vispusīgs novērtējums. Netika, piemēram, MPEG-1 II
slāņa kodeks novērtēts pie 256 kbps (t. i., pie mazāka
datu kompresijas faktora 6:1), kur tam jāskan labāk. Tāpat
netika novērtēti citi kodeki, piemēram, MPEG-2 BC u. c.
Daudzkanālu kodeku subjektīvais vērtējums
Perceptuālie
daudzkanālu kodeki (sk. SP 2000/4, 32. lpp.), kurus pēdējā
laikā aizvien plašāk izmanto multimedijiem un galvenokārt
kino un t. s. mājas teātrim, diemžēl analizēti
nepietiekami. Pieejami tikai EBU (European Broadcasting Union)
sponsorētie pētījumi, kuros subjektīvi novērtētas
Dolby AC-3 un MPEG-2 BC kodēšanas sistēmas bitu
plūsmu ātrumu robežās no 384 līdz 640 kbps
reālā laikā 5.1 kanāliem (sk. Tabulu 2).
Tabula
2
Daudzkanālu
kodeku Dolby AC-3 un MPEG-2 BC subjektīvais vērtējums [6]
Grupa Kodeks Bitu plūsmas
ātrums kbps MSS dif. sk. balle
1 MPEG-2 BC 640 -0,51
2 AC-3 448 -0,93
MPEG-2
BC 512 -0,99
3 AC-3 384 -1,17
MPEG-2
BC 384 -1,73 (!)
Subjektīvie
testi tika veikti, ievērojot ITU-R Rec. BS. 1116, bet pieckanālu
noklausīšanās telpa tika ierīkota saskaņā ar
ITU-R Rec. BS. 775. Tabulā dota vidējā MSS balle astoņiem
dažādiem skaņas ierakstu veidiem un testa signāliem.
Rezultāti apstiprina faktu, ka MPEG-2 BC sistēmas atskaņojuma
kvalitāte krīt ļoti strauji, samazinot bitu plūsmas
ātrumu. Svarīgi atzīmēt, ka neviena no astoņām
testa signālu un skaņas ierakstu veidu konfigurācijām
nespēja izpelnīties transparentai skaņai nepieciešamo ballu
skaitu!
Šajos
subjektīvajos vērtējumos Lucent PAC un MPEG-2 AAC kodeki
neesot pārstāvēti tādēļ, ka atbilstošās
sistēmas neesot bijušas pieejamas tirgū.
Arnolds
VĪTOLS
speciāli
SP
Informācijas
avoti:
1. T.
Ryden. Collected Papers on Dig. Audio Bit-Rate Reduction, 1996, 115-125 pp.
2. Ņåõķčźą źčķī č ŅĀ, 1997, ¹ 3, ń. 24-27.
3.
Methods for subjective assessment of small impairments in audio systems
including multichannel sound systems, ITU-R Rec. BS 1116, 1994.
4.
Method for objective measurements of perceived audio quality, ITU-R Rec. BS
1387.
5. G.
Soulodre et al. J. Aud. Eng. Soc. 1998, vol. 46, No. 3, 164-177 pp.
6. U.
Wustenhagen et al. Proc. 105th Conv. Aud. Eng. Soc. 1998, Sept., preprint 4813.