|
|||||
|
Yazılım
|
|
|||
Ses Tanıma Teknolojisi
|
|||||
|
|||||
Ses Tanımada Yeni Dönem
|
|||||
|
|||||
Söz Dinleyen Bilgisayarlar
Geliştiriciler, insan konuşmasına tam anlamıyla tepki gösteren bilgisayarların, telefon ve makinelerin müjdesini veriyorlar. Hızlı işlemciler ve daha iyi yazılımlar makinelerin kulağı olacaklar.
|
|||||
|
|||||
• Bilgisayar - Koruma kalkanlarını indir, gücü üç katma çıkar!" 30 yıl kadar önce bu sözleri Kaptan Kirk'ün ağzından duyduğumuzda uzay gemisi En-terprise'ın yıldızlar arasında uzaklara seyahati gibi gemi bilgisayarının sesle yönetilmesi de oldukça büyük bir hayaldi. Farklı konular üzerine kurulu "Savaş yıldızı Galactica" ve "Yıldız Savaşları" gibi diğer bilim kurgu filmlerinde de konuşmayı anlayan bilgisayarlar, ses tanıyan kapılar ve benzeri özel donanımlara yer veriliyordu. "2001: A Space Odyssey" filminin efsanevi bilgisayarı HAL ise özelliklerini hızla geliştirmiş ve dudaklardan konuşmayı okuyabiliyordu.
Dünün Bilim-Kurgu rüyası bugünün gerçeği
Yetmişli ve seksenli yıllarda bilim kur-, gu akımının yaratıcıları için konuşan bilgisayarlar bugünün düşüncesiyle ışınlanma kadar uzak bir teknolojik rüyaydı. Senaryo yazarları için ışık hızında seyahat eden uzay gemileri geleceği yansıtan güzel bir hayal olarak kalırken son yıllarda ses tanıma çok büyük bir yol aldı.
İleride ağızdan çıkan kelimeler klavye başında boşa geçen zamanın yerinin alacak, bilgisayar ve günlük hayatın parçaları olan elektronik eşyaların kullanımı gözle görülür şekilde basitleşe-cek. Şimdiden insan ağzından çıkan kelimelere duyarlı sayısız sistem geliştirilmiş durumda. Özel hazırlanmış yazılımlarla donatılmış bilgisayarlar, tıp bilimindeki özel kullanım alanları ve tabii ki günlük hayatta sıkça kullandığımız cep telefonu yada arabalar bu sistemlere ilk örnekler olarak gösterilebilir.
1993 yılından bu yana PC için konuşmayı tanıyan yazılımlar bulunuyor. Buna rağmen ancak üç sene öncesinden başlayan bir çalışma İle büro yaşantısını neşeli hale getirecek yeni ve yoğun bir uzmanlaşma sonucunda istenen sonucu veren dikte yazılımları
|
|
||||
|
|||||
142 CHIP NİSAN 2001
|
|||||
|
|||||
|
|||||||
|
Yazılım
|
|
|||||
|
|||||||
|
Ses Tanıma Teknolojisi
|
||||||
|
|||||||
geliştirilmiş. Sonuç olarak PC'ler için geliştirilmiş yeni ses tanıma yazılımları doğal bir konuşmayı yazıya dönüştüre-biliyorlar. Dikte olarak adlandırılan ve beklemelerle dolu bu işlem artık geçmişte kalıyor. En ideal kullanımda yüz-
|
de 95'lik bir isabet oranına sahip ses tanıma buradan da anlaşıldığı gibi aslında halen 100 harften beşini hatalı olarak yazıya çeviriyor. Bu oran bir A4 sayfasında 200 hataya karşılık geliyor ve profesyonel bir çalışma için bu sayı gerçekten oldukça fazla.
|
||||||
|
|||||||
|
PC'niz söylenenleri yazıya çeviriyor
Açıkçası sadece sınırlı terimleri içeriyor da olsa belirli konularda geliştirilen Özel çözümler güvenilirlik sağlarlar. Bu işle uğraşan uzmanlar için hazırlanmış programlar bilgisayara konuşulan sözcükleri yazılı metine çevirirler. Ancak bu işlem, sadece ses tanıma sürecinden istenen verim alınana dek yapılacak olan bir takım çalışmasıdır. Ve tabi ki sadece tıp veya hukukçular İçin satılan pahalı sözlükler yüzde yüz oranında güvenilir olabilirler. Okunan dokümanın anında ve doğru olarak işlenmesi ise şimdilik sadece gündemi İşgal etmeye devam edecek. Dikte yazılımlarıyla çalışma süreci farklı sınırlamaların etkisinde kalıyor. Ne olursa olsun kullanıcının bilgisayara bağlı olan bir kafa mikrofonu ile konuşması gerekiyor. Telsiz mikrofonlar büyük bir çalışma alanına sahip, ancak yine de kontrol için kullanıcının özlerinin monitör üzerinde bulunması gerekecektir.
Sokaktan gelen sesler, açık bir pencere yada büyük bir büroda çalışanların telefon görüşmeleri gibi rahatsız edici ortam gürül-tüsü ses tanımanın zorlaşma-sına ve hatalara neden olacaktır. Ancak şive ve telaffuz farklılıklarının belirlenmesi
için gerekli olan sıkıcı, uzun,
hassas deneme aşamaları sonu-
cunda yazılım, kullanıcısının söylediklerini anlamaya başlar.
Tüm bu zorluklara rağmen ses tanıma, işletim sisteminin bir parçası olduktan sonra uygulamaların yönetiminde adeta farenin icadı gibi bir dev-
|
Stay tuned: Ses tanıma için konuşmanın alınacağı bir Headset çalışma masanızın vazgeçilmez parcası.
rim gerçekleştirecek. Başlangıçta fare-nin işletim sistemiyle uyumunu sağla-yan çok az yazılım bulunuyordu. An-cak günümüzde grafik arabirime sahip her işletim sistemi pratik olarak kulla-nıcı arabiriminin yönetimi için fareyi standart ve neredeyse vazgeçilmez olarak görüyorlar.
Işletim sistemi: Uzman çözümler için ses tanıma geliştiriliyor
Ses tanıma konusunda kısa sürede bü-yük gelişimler bekleniyor. Çünkü IBM firmasi ofis uyguiamaları paketi olarak geliştirilmiş Smart Suite'in 9.0 sürü-müne ses tanıma yazılımı olan ViaVo-ce'ı ekledikten sonra Microsoft firması da kolları sıvadı. Yeni piyasaya çıka-cak olan Office sürümünün ses tanıma ile desteklendiğinin açıklanmasının ar-dından öncelikle konuşma sistemi SA-PI 5.0 yazılım geliştiricilerinin emrine ücretsiz olarak sunulmaya başladı. 125 Mbyte büyüklüğündeki ses tanımanın yanında yazıları okuyan bir de uygula-ma içeriyor.
Şimdilik Microsoft geliştirici paketi sadece İngilizce, Çince ve Japonca ko-nuşabiliyor. Sistem sabit disk üzerinde 450 Mbyte'a kadar boş alana ihtiyaç duyuyor ve donanım gereksinimi de dikkat çekiyor: Sadece ses tanıma isle-mi için sisteme 128 Mbyte çalışma ha-fızasına eklemeniz gerekiyor ve 64 Mbyte hafızanın tamamı konuşma iş-lemi icin kullanılıyor. Yeni piyasaya çı-kacak olan "Whistler" adındaki Consumer-Windows da konuşma motoruna sahip.
İşletim sistemiyle tarn entegrasyon sayesinde sadece uygulamalarda sesini-zi yazıya dönüştürme özelliğine değil aynı zamanda işletim sistemini tarn olarak ses komutlarıyla yönetebilme
|
|||||
|
|||||||
NİSAN 2001 CHIP 143
|
|||||||
|
|||||||
|
|||||||
|
Yazılım
|
|
|||||
|
|||||||
Ses Tanıma Teknolojisi
|
|||||||
|
|||||||
cı sadece belirlenmiş komutları söylemek zorunda kalıyor ve genel olarak günlük hayattaki konuşma tanınmış sayılmıyor.
Aynı şekilde kısa bir süre önce kullanıcısının sesini tanıyarak saklanmış numaraları arayan cep telefonları da satışa sunuldu. Bu araçlar da aslında kullanıcının kelimelerini gerçekten anlayamıyorlar. Bu işlemin üç temel basamağı bulunuyor. Kullanıcı tarafından istenen isim telefon numarasıyla birlikte ses kaydı olarak telefon hafızasına saklanıyor. Aranmak istenen numaranın kayıtlı olan ismi tekrar söylendiğinde telefon tüm ses kayıtlarım karşılaştırıyor. İki ses dalgası da birbirini tuttuğunda telefon İlgili numarayı arıyor.
Ses destekli bir sistem olan tamamen yeni uygulama Xybernaut (xyberna-ut.com) üreticilerinin fikirlerine dayanıyor. Amerikan kuruluşu olan bu şirket Amerikan silahlı kuvvetleriyle ortaklık yaparak "body-worn computer" olarak adlandırılan yazılım ve donanımı geliştirip desteğini veriyorlar. Vücut üzerinde taşınan bu sistem günümüzün büyük ve kullanışsız bilgisayarlarına karşı birçok farklı uygulama alanını elinde bulunduruyor.
Ses destekleyen bu sistem kafaya asılan ve sağ gözün önünde bulunan minyatür ekranı ve bilekte bulunan klavyesiyle birlikte belde yer alıyor. Tamamen vücutta taşınan sistem kullanı-
|
|
Kulağı olan Chip'ler: Do-
nanım tabanlı konuşma tanıma sistemleri güvenlik ve sistem giriş kontrolü sistemlerinde kullanılıyor.
|
Bilgisayarsız da yapılabilir: Chip'lerdeki ses tanıma
Embedded Voice Solution yani Chip üzerinde ses tanıma hemen hemen tüm ürünlere uygulanabiliyor. Arabaların yönetiminden başlamak üzere ev donanımının ve elektronik araçların yönetimine kadar neredeyse her şeyin otomatikleştirilmesinde farklı şekillerde kullanılıyor. Bu uygulamalarda önemsiz sayılabilecek kadar komutun bulunmasından ötürü sesten bağımsız sistem geliştirilmesine önem verilmiş. Bunun için artık geniş sabit disk alanına sahip, hızlı işlemcili bir bilgisayara gerek duyulmaz, çünkü gerekli Chip'i içeren bir CPU doğru yazılım ile birlikte ses sinyalleri üzerinde çalışmak üzere özelleştirilir.
Embedded sistemler bu sayede düşük maliyet ile büyük mik-tarlarda üretim İmkanına sahip olur.
Bunun yanında bu tür Chip'ler dış etkenlere karşı günümüz bilgisayarlarına göre daha fazla dayanıklılık gösterirler. Uygun bir Chip ile güçlendirilmiş her araç böylelikle duyabilen bir aygıta dönüşecektir. Örneğin televizyonunuzu uzaktan kumanda ile yönetmek yerine gelecekte kanal değiştirmek için sadece istediğiniz kanalın adını söylemek yeterli olacak. Televizyon için ses tanıma konusunda biraz daha beklemeniz de gerekse arabalardaki uygulamalar artık bir gerçek. Sadece birkaç yıl önce hayranlıkla izlediğimiz bu sistemler örneğin artık İngiliz araba üreticisi Jaguar tarafından 2001 yılından itibaren S tipi modellerine Embedded Vo-ice çözümü sayesinde isteğe bağlı olarak güvenlik ve konfor seçimi olarak sunuluyor. Ses destekle-
|
||||
cısına denetim ve bakım konusunda karmaşık endüstri kollarında büyük yardım sağlamayı hedefliyor. Herhangi bir sorun anında teknisyen üretim planı ve dokümantasyon gibi gerekli bilgileri gözüyle takip edebiliyor.
Ses ile yönetilen İnsan-Makine iletişiminin hızlı ve yakalanması güç gelişimi her şeye rağmen daha çok donanım alanındaki ilerlemeler ile sağlanıyor.
|
|||||||
Roboworker: Uçuş kontrolü, savunma ve silahlı kuvvetler yada endüstriyel amaçlı kullanılabilen mobil minyatür PC'ler şirket ağlarına bağlantı da sağlıyor.
|
|||||||
|
|||||||
146 CHIP NİSAN 2001
|
|||||||
|
|||||||
|
|||||
|
|||||
Ses Tanıma Yazılımları
|
da sistem sadece seslenme-
|
Bankamatikler müşterilerini duyuyor, görüyor ve hissediyor
Donanım üzerine dayalı ses tanımanın farklı bir uygulaması da şu an deneme aşamasında yer alıyor. Üretici firma NCR'ın para otomatı "Stella" gerçekten üstün yeteneklere sahip. Kişisel bir tanıtım numarası, şifresi (PIN) girmek yerine aygıt müşterisini gözün retinasından tanıyarak kişisel bir şekilde karşılama yapıyor ve hatta doğum gününüzü bile kutluyor.
Sistem, müşterinin varlığım basınca duyarlı paspas sayesinde algılıyor. Klasik komutlar yardımıyla bankamatik size işlemlerinizde kolaylık gösteriyor. Ses komutları ve kelime tanıma özellikleriyle geliştirilmiş bu bankamatik sistemi iki büyük kredi enstitüsü tarafından test edilmiş. Ses tanıma için görülen tüm örnekler özellikle de In-ternet ortamıyla da birleştiği düşünülürse gerçekten oldukça heyecan verici.
Geleneksel olarak telefon ağlarıyla
|
|||
|
niz ile birlikte hedefe doğru en kısa yolu veya mobil bağlantı ile Internet'ten alınan borsa kurları gibi gerekli bilgileri gayet sem-patik bir ses ile size okuyor. Beş yıl içerisinde ise araba ve sürücü arasında gerçek bir konuşma mümkün olacak. Bunun yanında sü-rücünün güvenlik açısın
|
||||
|
|||||
Tahmin: 2005 yılına kadar ses tanıma programlar
|
dan yol dışında herhangi
|
||||
pazarında patlama bekleniyor.
|
bir yönetime dikkat harcamayacak olması da sistemin en büyük getirilerinden. Bu sistemin gerçekleştirilmesi için Jaguar tarafından desteklenen Visteon'da 60'a yakın geliştirici çalışıyor. Aynı sınıfın araç üreticileri olan DaimlerChrysler ve BMW de ses destekli telefon sistemini üretim programına koymuş durumda. Güvenlik açısından sürüş sırasında önem taşıyan sinyal yada fren gibi unsurların geliştirilmesi de gelecek için sadece mühendislerin elinde bulunuyor.
|
||||
yen bu sistem tüm müzik, telefon ve klima donanımını şimdilik sadece İn-gilizce olmak üzere yönetilmesini sağ-lıyor. Türkçe komutların tercümesi için ise uzun süre daha çalışılması gerekiyor.
Yukarıdaki üç sistemde kelimelere tepki verebiliyor. Kısa komutlar hızlı bir telefon bağlantısının kurulması, radyo kanalının seçimi yada klimanın farklı bir biçimde ayarlanması için kullanılabiliyor. Tüm bunların yanın-
|
|||||
|
|||||
SES TANIMA NASIL GERÇEKLEŞİYOR?
|
|||||
|
|||||
Düşünüyor mu Yoksa Düşünmüyor mu?
|
|||||
|
|||||
Bilgisayarlar düşünmezler, sadece verilen program basamaklarının gösterdiği yolu izlerler. Klavyeden bilgi girişiyle karşılaştırılırsa ses tanımayla birlikte işlemci büyük bir yük altına ve analiz prosesine girecektir. Olasılık tahmini yapılarak kullanıcının ne söylemiş olduğu anlaşılmaya çalışılır.
İlk adımda bilgisayar kullanıcının akustik girişini dijital ses boyutuna getirir ve bunu milisaniye boyutlarında parçalara ayırır. Kayıtın devam ettiği sürede yazılım arka planda ses parçalarını saklanmış ses örnekleriyle karşılaştırır. Karşılaştırma veritabanı-nın kalitesi sorunsuz ses tanımanın en önemli koşuludur. Burada ton düşmesi, şive, hecelerin vurgulanması, telaffuz gibi çeşitli konuşma özelliklerine sahip farklı konuşmacıların sesleri bulunuyor. Ses tanımanın bu yönü konuşmacıdan bağımsız sistemlerin yaratılması için oldukça önemli tutuluyor.
Ses tanıma sistemleri ek olarak ko-nuşmanın en küçük akustik birimi olan ses bilgisine dayanıyor. Türkçe'den bir örnek vermek gerekirse "Rol" kelimesi aynı yazılmasına rağmen "Erol" içerisindeki hecede farklı
|
okunuyor. Çalışmalar sırasında yazılım, kullanıcının en önemli ses özelliklerini tanımlıyor ve bu değerleri konuşmacı profili altında kaydediyor. Bundan sonra konuşmayı yapan kullanıcının dikte işlemi sırasında mümkün olduğunca aynı telaffuzu kullanması da oldukça önemli.
Ses tanıma işlemi son olarak vurgu tanıma ile tamamlanıyor. Buradan bir keli-
Ses kartı üzerinden sayısallaştırma
\
|
menin farklı başka kelimelere benzeyip benzemediği anlaşılıyor. Cep telefonu sahipleri bu buluşu yeni modellerin kısa mesaj (SMS) yazma sırasında kelimeleri otomatik olarak tamamlanması özelliğinden tanıyacaklardır.
Tanıma metotlarının kombinasyonları gelecek yazılımlara daha anlaşılır kullanıcı girişi olanağı sağlayacaklar.
|
|||
|
|||||
|
|||||
148 CHIP NİSAN 2001
|
|||||
|
|||||