Da bismo razumeli ulogu ponderisnih pretvarača, moramo u najkraćim crtama sagledati arhitekturu i ulogu statističkog pristupa u prepoznavanju govora. Ona bi se mogla opisati kao pretraga u prostoru svih mogućih rečenica i izbor najverovatnije od njih. Ono što je ključno za ovaj prepoznavač je da na osnovu Bajesovog matematičkog formalizma odvojeno modeluje akustičku i jezičku komponentu a rezultat je niz reči koji maksimizuje dati izraz. Vidimo da je za niz akustičkih opservacij X, kriterijum za izbor najverovatnije sekvence reči u vidu proizvoda sledećih činilaca P(W) -- apriorna verovatnoća javljanja datog niza reči W i P(X|W) --- uslovna verovatnoća (izglednost, engleski likelihood) da se za niz reči W, modelovanog pomoću niza skrivenih Markovljevih modela, javlja niz akustičkih opservacija X. Slika prikazuje arhitekturu standardnog prepoznavača i kao što možemo videti, obrada audio signala započinje modulom za ekstrakciju obeležja. Njegov zadatak je da audio ulaz pretvori u niz akustičkih opservacija i time obezbedi kompaktna reprezentacija audio signala. Takođe, izdvajanje obeležja ima za cilj da obezbi i razdvajanje lingvističkog sadržaja od ostalih informacija sadržanih u audio-signalu. Usled toga, realizuje se u skladu sa perceptivnim osobinama ljudskog slušnog aparata. Najčešće se koriste mel-frekvencijski kepstralni koeficijenti. U okviru dekodera se, na osnovu informacija iz jezičkog i akustičkog modela vrši pretraga i izbor najverovatnije sekvence reči za dati skup akustičkih opservacija. Ovo podrazumeva sledeće korake: • Pretraživanje prostora mogućih hipoteza - pri tome, treba imati u vidu da na dimenzionalnost ovog problema ne utiče samo broj reči u rečniku, već i brojni drugi parametri (npr. varijacije u izgovoru, vremensko poravnanje unutar sekvence reči, složenost modela itd.). • Ocenjivanje (engleski scoring) hipoteza na osnovu akustičkih i jezičkih pokazatelja. • Odabiranje skupa najverovatnijih hipoteza. Svaki dekoder mora prvo da definiše prostor pretrage. Naime, jedinica akustičkog modelovanja uglavnom nije reč, već manje celine. Usled toga, primenom modula za generisanje izgovora definišemo pravila za preslikavanje između samih reči i ovih manjih celina. Tokom obrade akustičkih opservacija najčešće se koristi Viterbijev algoritam dekodovanja.