sa-1.jpg
Konuşma tanıma
Seni çok iyi
anlıyorum, dostum
Bilgisayarlı konuşma tanıma yeni kıyılara yelken açıyor: Teknoloji her kullanıcıya ayak uyduruyor, sistemler içerikleri anlıyor ve diyalog yeteneği kazanıyor.
NEREDEYSE SİHİRDEN FARKSIZ: SÜRÜŞ SİMULASYON
cihazındaki deneğe, yalnızca aracın hangi işlevleri­ni sesle ya da el işaretleriyle yönetmesi gerektiği söyleniyor. Elektronik ölçüm cihazlarıyla donatılmış vası­taya binişi sırasında, bu kişiye başka hiçbir talimat veril­miyor. 7 serisi BMW'nin direksiyonunu, denek kendisi kullanmak zorunda. Dev perdedeki sanal manzara üze­rinde seyreden yolculuk, deneğin tüm dikkatini toplama­sını gerekiyor. Sürücü, istediği her şeyi konuşarak ve el işaretleriyle ifade edebiliyor. "Sesi aç. Başka kanala geç. Bayern üç. Bir sonraki." Radyoyu yönetmek İçin hangi sözleri kullanırsa kullansın, işler yolunda gidiyor. Doğru kanallar ayarlanıyor, ses seviyesi sürücünün keyfine göre belirleniyor. Klimayı ayarlamak içinse gevşek bir el hare­keti yetiyor da artıyor bile. Peki, otomobilin üzerindeki bilgisayar bir gecede kuantum sıçramasıyla mı bu hale geldi, yoksa işin içinde sihirli bir değnek mi var? Gerçek­ten de Münih Teknik Üniversitesi'nde bu alanda kullanı­lan yöntemin adı "Oz Büyücüsü". Ancak sihri gerçekleşti­ren, bir camın ardındaki Kontrol odasında oturan ve çok sayıda monitörden araçtaki ve çevresindeki olayları göz­lemleyen deney yöneticisi. Arabayı kullanan denek bilgi­sayarın tüm emirleri yerine getirdiğini zannetse de, aslın­da onun dileklerini yerine getiren (üstelik de bunu elle
sa-2.jpg
yapan) camın gerisindeki bu bilim adamı. Araştırmacılar bu tarz deneyler yürüterek, insanların baştan itibaren ye­teneklerinden emin olduğunda bir bilgisayarı nasıl kulla­nacağını su yüzüne çıkarmak istiyorlar. Bu testler akıllı makineleri geliştirmeyi ve onları insana yaklaştırmayı he­defliyor. İnsan ile makine arasındaki iletişimin çeşitli bi­çimlerinin araştırıldığı Münih'teki kurum gibi laboratu­arlar, konuşma tanıma alanındaki yeni gelişmelerin başını çekiyor. Profesör Gerhard Rigoll, bilgisayar üzerinden konuşma tanımayı daha verimli ve gündelik hayata uygun hale getirmek için güncel yaklaşımlardan birini, "Kelime hazinesini büyük Ölçüde kısıtlıyor, buna karşın daha fazla anlam gündeme getiriyoruz", şeklinde açıklıyor. Rigoll, Münih Teknik Üniversitesi'nde insan-makine iletişimi kürsüsünde ordinaryüs.
Kelime hazinesi ne kadar küçükse anlama işlemi de o kadar başarılı
Sloganımız uzmanlaştırma: Öteki dil tanıma programları 100.000 sözcüğü aşan kelime kapasiteleriyle boğuşur ve %100'lük isabet kotasına hiçbir zaman ulaşamazken, özel programlar 1.000 kelimeden daha küçük bir sözcük dağar-cığıyla yetiniyor. Bu programlar söylenenin içeriğini anla­mayı ve konuşmanın amacını kestirmeyi deniyor. Hedef,
CHIP I ARALIK 2003
sa-3.jpg
PRATİK, INTERNET
19
UÇUŞ YARDIM YAZILIMI: BİLGİSAYAR KONUŞMA İÇERİĞİNİ NASIL ANALIZ EDİYOR?
Seslerle sözcüklerin eşleştirilmesi zorlu bir iş. Konuşulan tını­lardan, sesbirimlerden, sözcüklerden, tümce parçalarından ya da tam cümlelerden yazılı bir metin oluşturma işlemini, bilim adamları "yazıya dökme" olarak niteliyor. Kullandıkları bîr
araçla kontrolü ellerinde bulunduruyorlar. Yazılım, konuşulan şeyin doğru olarak tanınıp tanınmadığını gösteriyor. Son adımda ise kararlaştırılan sözcüklere bir anlam atanıyor; bu, insan İle makine arasındaki diyalogun temelini oluşturuyor.
1- Frekans diyagramı: Bu, tanınması gereken sayısallaştırılmış orijinal veriyi gösteriyor. Burada, konuşmayı mikrofon girişi sayesinde sayisal ortama aktaran bir ses kartı kullanılıyor.
2- Tayf: Burada, bir araya gelerek dili oluşturan tüm elemanlar görünüyor. Ya-
zılım, her on milisaniyede bir sinyalin kı­sa bir kesitini alıp birçok ayırt edici özel­liği hesaplıyor ve tınıların tanınmasını sağlayan bir vektör haline sokuyor. Ör­neğin kırmızı renk, konuşma melodisini karakterize eden temel frekansa denk.
3- Konuşma tanıma: Önce hazırlanmış
verilere uygun sesbirimler, yani kısa ses unsurları atanıyor, sonra bunlardan olu­şan uygun sözcükler aranıyor.
4- Anlamsal tanıma: Kullanılan söz­cükler, cümle yapısı ve bağlam, sisteme konuşulan cümlenin içeriğini çözümle­me imkanı tanıyor.
sa-4.jpg
insan ile makine arasında, çok kısıtlı bir konu üzerine de olsa, hakiki bir diyalog. Rigoll, örnek uygulama olarak bir bilgisayarın kullanıcıyla diyaloga geçtiği (yukarıdaki grafi­ğe bakınız.) otomatik bir uçuş yardım sisteminden söz ediyor. Sistem yalnızca kullanıcının ne dediğinin farkına varmakla kalmıyor, terimleri teker teker anlamlarına göre düzenliyor, içerik, daha giriş aşamasında anlamsal bakım­dan inceleniyor. Ancak bu, yalnızca adı geçen anahtar söz­cükler gerçekten uçuş danışmanlığı ile ilgiliyse gerçekleşi­yor. Bilgisayar, anlamadığı bir şey olduğunda yanlış yo-rumlamaktansa, planlı bir biçimde, etraflıca soruyor. Ger­hard Rigoll bürosundaki siyah deri koltuğa bir güzel kuru­luyor ve ve önemli bir bölümü kendi tarihini de içeren ko­nuşma tanıma tarihi üzerine çene çalmaya başlıyor. 45 ya­şındaki bilim adamı, yirmi yıldan fazla bir zamandır ko­nuşma tanıma (speech recognition) konusuyla uğraşıyor. "Başlangıçta ben de günün birinde bir bilgisayarla diyalo­ga girebileceğimizden kuşkuluydum", diye anlatıyor Ri-İI. Rigoll 1986 yılında ABD'ye IBM'in araştırma kısmına niş. O yıllar konuşma tanima konusunun patlak verdi-ilk ticari ürünlerin piyasaya çıktığı yıllarmış. Hidden-ov denilen modellerin konsepti (yukarıya bkz.) geliş-
tiricilerin eline dili istatistiksel karakteristiklere bakarak tanıyabilen bir araç veriyor. Bu sırada örneğin frekanslar gibi belirli karakteristiklerin üretilme olasılığı ortaya çıka­rılıyor. Bu karakteristik Özelliklere bakılarak da sözcükler belirleniyor. İstatistik ile dil tanımanın yolu açılmadan ön­ce, sayısallaştırılmış sinyalleri seslere ayırma denenmiş. "Ama dil, duyu organlarımızın derininde bulunan bir sü­reç. Bu yüzden dili "Eğer - Öyleyse" kuralları haline indir­gemek kolay değil," diyor Rigoll. Hidden-Markov modelle­ri dil tanıma alanında çığır açmış bulunuyor. IBM, bunu temel alan dikte sistemi ViaVoice ile piyasanın önderi hali­ne gelmiş ve diğer firmalar da bu alana yönelmekte hiç ge­cikmemiş.
Pratikte iletişim sorunları
Ancak coşku geçmişte kalmış. Çoğu işyeri konuşma tanı­ma sisteminden vazgeçiyor; çünkü hata oranı, rahat bir kullanıma izin vermeyecek kadar yüksek. Bunu, bekleme odasında kırmızı bir mekanik daktilo bulunduran Rigoll da biliyor. Kendi ofisindeki deneyleri çok geçmeden askıya almış. Bilim adamı Rigoll'u şimdi ilgilendiren, algoritma­ların "acımasızca hassaslaştırılması ve iyileştirilmesi." Ma-
cHIP I ARALIK 2003
sa-5.jpg
BİLGİSAYAR KONUŞMAYI NASIL TANIYOR?
»Veritabanları, algoritmalar ve istatistik
Sürekli konuşmada sözcükler çoğu za­man aralarında boşluklar olmadan, peş peşe sıralanır. Bir bilgisayar için bu ses örneğini sözcüklere ayrıştırmak külfetli bir iş.
1. Basamak: Sesbîrîmlerİnİ (Fonem­leri) TANIMAK. Tam bir sözcük birçok
sa-6.jpg
Usabilİty-Lab: Programla eğitim insanla bilgisa­yarın daha iyi anlaşabilmesine yardımcı oluyor.
sesbirimden İbaret (Sesbİrim: anlam ifa­de eden, ancak kendisi anlam taşımayan en küçük dilsel birim). Normal konuşma hızında, bir sesbirim 10 ila 40 milisaniye uzunluğunda. Konuşma tanıma işlemin­de, yaklaşık 10 milisaniyelik aralıklarla sesin kısa süreli tayfları oluşturuluyor. Sistem buradan ayırt edici değerleri tek tek hesaplıyor ve bunları bir ka­rakteristik vektöründe bir araya getiriyor. Karakteristik vektörle­rinin zamansal dizilişi, hangi söz­cüğün konuşulmuş olduğunu saptamayı mümkün kılıyor. Bu­nun için, karakteristik vektörleri depolanmış referans Örnekleriy­le karşılaştırılıyor.
2. Basamak: Hİdden-Markov
MODELLERİ. Bu karşılaştırmaları optimal tanımada olabildiğince hızlı gerçekleştirebilmek için
Markov zincirleri denilen yapıları temel alan istatistiksel bir İşlemden yararlanı­lıyor. Bunlar bir sesbirimden diğerine ge­çiş olasılıklarını belirten zincirler. Bir alıştırma aşamasından sonra, bilinme­yen bir örneği tanımada, modelin bu akı­şı üretebilmesi olasılığı hesaplanıyor. Bu hesaplama tekrar tekrar yapılıyor. Bu, yüksek bir hesaplama gücünü şart kılı­yor.
3. Basamak: Bi- ve Trİcram. Bir ko­nuşma tanıma programının daha da yüksek bir tanıma doğruluğuna erişebil­mesi için, Hidden-Markov modellerinin yanı sıra başka bir istatistik yöntemi da­ha mevcut. Dikte sırasında sürekli he­saplamalarını yürüten Bi- ya da Trigram istatistiği yoluyla bir bağlam sınaması gerçekleştiriliyor, Böylece sistem gitgide daha fazla konuşmacıya ve konuşmacı­ların bireysel dil tarzına uyum sağlıyor.
kine ile iletişimde insanı her şeyin ölçüsü yapmak ne dere­ce değerliyse, sistemlerden daha fazla tanıma performansı elde etmek için insan o derece gereksizdir. "Bizde bugün hiçbir insan artık bilgisayar ile konuşmuyor", diye açıklı­yor Rigoll. Araştırmacıların bilgisayara bir metin okuması ve akabinde yazılımın ne kadarını hata­sızca tanıyabildiğini sınadığı zamanlar
mez," diyerek açıklıyor. Otomatik konuşma tanıma alanın­da yalnızca insanlara bakmak çok az şey kazandırmış. Bu iş için çizilmiş eğriler daha fazla şey ifade ediyor. Ruske gerçekler üzerinde duruyor: "Bence bu ilkel bir yaklaşım, ama sonuçlar çok İyi olduğu için kullanıyoruz." Bilim
sa-7.jpg
geride kalmış bulunuyor. Artık en küçük ilerlemeleri de görünür kılan yeniden üretilebilir test koşullarını standartlaştı-nlmış veritabanları sağlıyor, ingilizce uluslararası standart olsa da, algoritmala­rın hassaslaştınlmasında dilin hiçbir rolü
»Günümüzde algoritmaların acımasızca özelleştirilmesi ve optimize edilmesi ön planda
Profesör Gerhard Rigoll, Münih Teknik Üniversitesi
yok. İşin tamamı, büyük ağırhğını prog­ramlamanın oluşturduğu, son derecede zahmetli bir prosedür. Araştırmacılar, bir şey elde edip edemediklerini bazen saatler, aşırı durumlarda ise haftalar süren hesaplamalar sonucunda görmek zorunda kalıyor­lar. "Tüm istatistik yöntemlerinin altında yatan soru şu: Belirli karakteristik noktalar gözlemlendiğinde, hangi söz­cükler hangi olasılıkla konuşulmuş oluyor?" diye özetliyor Profesör Günther Ruske. Münih Teknik Üniversitesi'nde araştırmalar yürüten Ruske, zorunlu soyutlamaların hak­kından geliyor.
Eğrilerin incelenmesi hedefe götürüyor
Dilde örneği tanıma, tıpkı el yazısı, harf ya da yüz tanıma sistemlerinde olduğu gibi işliyor. Birçok görüş arasından ayırt edici olanlar süzülüyor. Ruske, verimli algoritmaların önemini, "Ne de olsa bir insanın bir evin ev olduğunu an­laması için dünyadaki bütün evleri görmüş olması gerek-
adamları tayfsal maksimumlara bakarak sesli harfleri ko­layca tanıyabiliyorlar. Örneğin "A" sesi spektrumda hep çok önde yer alıyor ve böylece bir nirengi noktası görevini üstleniyor. Bu rezonansın yerinin belirli bir insanda tam olarak nerede bulunduğunu ise, Ruske'nin ses üretim yo­luna taktığı isimle, pasif "boru" tayin ediyor. Bu yer ses üretim yolunun uzunluğuna bağımlı ve ağız ve dil hareket­leriyle kaydırılıyor. Logaritmik kaydırma vasıtasıyla bu sesli harf uzunlukları sistemde standartlaştırılıyor ve böy­lece yazılımların konuşmacıyla uyumu sağlanıyor. "Sani­yeler içinde bir konuşmacıya adapte olan bir sistem bir düş olurdu," diyerek güncel sınırları gösteriyor Ruske. Kelim hazinesi kısıtlaması olmadığında ve sistemin bir kon macıya uyumu sağlanmadığında tanımanın ne kadar olduğunu şimdiden kullanılan dil tanımanın üst uç lamaları gösteriyor. Makine için örneğin bir am
Ltd. Şti.
87 istanbul
CHIP I ARALİK 2003
sa-8.jpg
Geveze: İster konferans salonu, ister apron olsun, yazılım her şeyi kaydediyor. Ancak uzmanlaşma eksikli yüzünden içerikle ilgili sorunlar var.
SÖZCÜĞÜ SÖZCÜĞÜNE
»Konuşma tanımanın yarım asırlık tarihi
1952 BeİI Laboratuarları telefonda konu­şulan Û --9 arası rakamları tanıyan bir sistem sunuyor.
1959 MIT'nin ürettiği sistem sesli harfle­rin yüzde 93'ünü tanıyor. Yedi yıl sonra bu oran 50 sözcüğe ulaşıyor.
1962
Konuşma yeteneğine sahip ilk ay­gıt piyasaya çıkıyor. IBM 7772'nin sesi içi boş bir te-nekeninkinden biraz daha İyice.
sa-9.jpg
1968 Bilimkurgu yine yıllarca önden gidi­yor, "2001 - Uzay Macerası" filmin-de, bilgisayar HAL astronotlarla ko-
___ nuşuyor.
1976 Bruce Lowerre komple cümleleri ve basit dilbilgisi yapılarını tanıyan Harpy sistemini geliştiriyor. Bunun için 50 bilgisayar yoluyla paralel iş­lem gerekiyor.
sa-10.jpg
fonları da eninde sonunda küçük klavye ile yetinemeye­cek. Gerhard Rigoll, "Bu yeni bir kullanıcı arabirimi talep ediyor ve ben mobil alanda da konuşma tanımanın sağlam bir yer edineceğinden eminim," diye iyimserliğini belli ediyor. Ancak burada talepler çok yüksek, çünkü yalnızca farklı kullanıcılar değil, kötü ton kalitesi ve rahatsız edici parazitler de hesaba katılmak zorunda. Konuşma tanıma daha fazla iyileştirilebilir ve daha sağlam yapılabilirse de, bir cep telefonu bunun için gerekli hesaplama performan­sını sağlamakta zorlanacak. Dağıtılmış tanıma ise bir çıkış yolu olabilir. Cep telefonu, algılanan konuşmanın yalnızca en önemli karakteristiklerini hesaplar ve ilgili verileri ser-
1977 İnşaat bankası ...... VVüstenrot, "konu­şabilen" bir siste­min Almanya'daki ilk ticari müşterisi oluyor.
sa-11.jpg
»Gerçekten önemli olanı tanımaktan henüz çok uzağız,
Profesör Günther Ruske, Münih Teknik Üniversitesi
1978 Texas Instruments bir dil işlemcisi­ni bir yonga üzerine yerleştiriyor.
1986 IBM Tangora 4 gerçek zamanlı İsta­tistiksel yapıları tanıyor.
1988 Dragon, PC için ilk konuşma tanıma yazılımını üretiyor.
,1996 OS/2 Warp sesle yönetim özelliği bulunan ilk İşletim sistemi.
1997 Gitgide daha fazla program piyasa­ya sürülüyor. Temmuz ayında 23.000 sözcük tanıyan Dragon Na-turalySpeeking, Ağustos ayında ise IBM'in Via Voice'u piyasaya çıkıyor. Onu hemen ardından Philips ve Ler-
nout & Hauspie takip ediyor.
2000 Wolfgang Wahlster dil dönüştürücü "Verbmobil"i çıkarıyor.
vİs sağlayıcıdaki bir sunucuya gönderir. Orada büyük bir bilgisayar konuşma tanımaya yönelik asıl hesaplamaları yürütür. Siemens, Münih'te daha şimdiden cep telefonu tarafında ilgili performansı sağlayacak bir yonga üzerinde çalışıyor. Bunun kullanılıp kullanılmayacağı ve şayet kul­lanılacaksa bunun ne zaman gerçekleşeceği henüz belli de­ğil, çünkü henüz hiçbir cep telefonunun büyük bir bilgisa­yarın yardımına ihtiyacı yok.
MF/ Garo Antikacıoğlu, agaro@chip.com.tr
sa-12.jpg
CHIP I ARALIK 2003