Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala
Jezičke tehnologije Automatsko prevođenje teksta Automatsko rezimiranje teksta Automatsko nalaženje informacije u tekstu Optičko prepoznavanje pisanog teksta Automatsko vođenje dijaloga Sinteza govora na osnovu teksta Prepoznavanje govora
AlfaNum Rečnik Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od strane računara LC Star
? Korpus Anotiran ili neanotiran U tekstu se reči javljaju u svim svojim pojavnim oblicima Kako razrešiti dvosmislenost? Morfološka anotacija u velikoj meri rešava i problem akcentuacije Pored svoje izdavačke delatnosti, Narodna knjiga počinje sa distribucijom stručne literature na engle-skom jeziku iz različitih oblasti. ?
Korpus Korpus srpskog jezika (CSL)
Korpus MULTEXT East AlfaNum
Izgradnja korpusa
Trenutno stanje na AlfaNum projektu Realizovan akcenatski rečnik (100.000 odrednica / 3.700.000 izvedenih oblika reči) Realizovan anotiran korpus rečenica (150.000 reči) Realizovani sistemi za automatsku morfološku anotaciju Zasnovan na automatskom učenju – 88% tačnosti Zasnovan na ručno dobijenim gramatičkim pravilima koja utiču na vrednost metrike u algoritmu za pretragu – 92% tačnosti Realizovani potpuno funkcionalni sistemi za prepoznavanje i sintezu govora: na srpskom jeziku na hrvatskom jeziku na makedonskom jeziku
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između fonema U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između glasova U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između glasova U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između glasova U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije _ K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između glasova U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
Istraživanja u toku Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): U pogledu granica između glasova U pogledu kvaliteta artikulacije U pogledu akcenta U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N _
Određivanje istih parametara iz teksta _ Kad se vratio iz Paname, odmah je produžio u Japan.
Određivanje istih parametara iz teksta ? _ Kad se vratio iz Paname, odmah je produžio u Japan.
Određivanje istih parametara iz teksta _ Kad se vratio iz Paname, odmah je produžio u Japan.
Pretraga baze / \ ↑ − ↓ \ Baza: ^ ↑ / \ − ↓ \ \ \ \
Pretraga baze / \ ↑ − ↓ \ Baza: ^ ↑ / \ − ↓ \ \ \ \
Pretpostavke i ograničenja Pretpostavljamo da f0 kriva zavisi isključivo od sledećih faktora: Akcenatska konfiguracija Položaj u rečenici (blizina i tip granice) a ne i od sledećih: Fokus Varijabilnost govornika Ovde radimo samo sa f0, ne i sa trajanjima pojedinih fonema
21 Hvala na pažnji!