Funkcje głosowe

w dziale Opera
owiecc napisał(a):

a kiedy ma wejść sterowanie głosem? Bo przycisk z mikrofonem to od wczesnych 7.xx można dodać.

quiris napisał(a):

Jak andol udoskonali swoją wtyczkę: http://starzaki.eu.org/~hclan/operapl/en/plugins.html bigsmile

qviri napisał(a):

Nikt nie wie, a ludzie z Opery po zapytaniu rzucają jakimś tajemniczym linkiem z którego nic nie rozumiem. Ale ostatnio w toolbar.ini widziałem parę interesujących wpisów...

Mareczek84 napisał(a):

Że co ? jakie sterowanie glosem ?

Jeszcze tylko brakuje obsluga kuriera pocztowego przez sztuczna szczeke sasiadki z gory smile

Mayor napisał(a):

cytat:

Multimodal technology allows the interchangeable use of multiple forms of input and output, such as voice commands, keypads, or stylus -- in the same interaction.

byłoby fajno...

onet! - i włącza się onet
piła! - i lecą serwisy sportowe
itp itd kto wie jaką niespodziewajke nam zaserwują w Opera 8 sherlock

Moose napisał(a):

Originally posted by Mayor
onet! - i włącza się onet
piła! - i lecą serwisy sportowe



Taa, tylko ja sie zastanawiam co zrobi koles, ktory sepleni... Ja na przyklad nie seplenie, ale mam "francuskie" r do n-tej potegi, co niesamowicie przeszkadza w pewnych sytuacjach. A trenowanie software nie pomoze zbytnio...

Poza tym, nie wiem czy dozyje polskiej wersji, bo jak na razie, to tylko English... jezyk latwy do opanowania przez maszyny...

M.

Mareczek84 napisał(a):

Zapomnijmy o tej wersji.

Jesli nawet jutro miala by wyjsc wersja po polsku daje glowe ze 99% z nas bawilo by sie ta zabawka przez tydzien po czym bysmy po prostu to wylaczyli bo wraz z korzystaniem z tej funkcji musieli bysmy miec zawsze szklanke wody, piwa.

pozostaje 1% o ktorym nie bede mowil co bedzie robil z ta opcja smile

Mayor napisał(a):

no ale taka 'piła' anglicy też wymówia tlyko trzeba im to dobrze napisać:
'peewo(w)'
że nie wspomne o anglojęzycznym zapisie polskich słów 'kto ty tak królik' wink

myśle że jak już to będzie to nalezało by sie spodziewąć takich poleceń jak 'Back' 'Stop' 'Reload', 'Home', a za 50 lat i 'Reply mail', 'Write a message to my boss' or smth ;-)

andol napisał(a):

Originally posted by Moose
Taa, tylko ja sie zastanawiam co zrobi koles, ktory sepleni... Ja na przyklad nie seplenie, ale mam "francuskie" r do n-tej potegi, co niesamowicie przeszkadza w pewnych sytuacjach. A trenowanie software nie pomoze zbytnio...



Elementem dobrego oprogramowania tego typu jest zawsze bardzo dobry i rozbudowany moduł "trenujący" czy też "samouczący".

Jeżeli brak dobrego modułu "samouczącego" -- nie uznałbym programu rozpoznającego mowę za dobry.
Oczywiście istnieją algorytmy rozpoznające mowę niezależne od mówcy. Przy ograniczonym słowniku (kilkadziesiąt wyrazów) działąją one bardzo dobrze, jednak nawet programy wykorzystujące tego typu algorytmy muszą moim zdaniem być wyposażone w moduł uczący...

andol napisał(a):

Originally posted by Mareczek84
Zapomnijmy o tej wersji.

Jesli nawet jutro miala by wyjsc wersja po polsku daje glowe ze 99% z nas bawilo by sie ta zabawka przez tydzien po czym bysmy po prostu to wylaczyli bo wraz z korzystaniem z tej funkcji musieli bysmy miec zawsze szklanke wody, piwa.

pozostaje 1% o ktorym nie bede mowil co bedzie robil z ta opcja smile



Funkcje głosowe to nie tylko rozpoznawanie mowy. To również synteza mowy.

Nie zapominaj o dostępności (accessibility). To, że ty nie potrzebujesz pewnych funkcji -- nie oznacza że inni podzielają twoje zdanie. Pomyśl np. o osobach niedowidzących mających możliwość wysłuchania treści strony internetowej.

Pomyśl o osobach z problemami ruchowymi (np. niedowład kończyn górnych) -- dla nich możliwość wykorzystania komend głosowych do najczęściej wykorzystywanych czynności związanych z przeglądaniem Sieci może być ogromnym ułatwieniem.

andol napisał(a):

Jeszcze jedno wyjaśnienie, aby nie było nieporozumień.

Multimodal browser tworzony przez firmy OS oraz IBM nie ma nic wspólnego z głosowym sterowaniem interfejsem użytkownika Opery! Chodzi tutaj o obsługę technologii VoiceXML oraz X+V.

Obsługa interfejsu użytkownika oraz ewentualne czytanie "zwykłych" stron WWW zostanie zaimplementowane później. Jeśli w ogóle zostanie zaimplementowana -- oficjalnych informacji brak (opieram się na kilku prywatnych, luźnych i niezobowiązujących rozmowach).

andol napisał(a):

Originally posted by quiris
Jak andol udoskonali swoją wtyczkę: http://starzaki.eu.org/~hclan/operapl/en/plugins.html bigsmile



bigsmile bigsmile bigsmile

A tak poważnie:
W Operze 7.2x można sobie aktywować okienko "preferencji mowy", które oczywiście w "nomalnych" Operach nie działa. Mówię "normalnych", gdyż jest jeszcze coś takiego jak Multimodal Browser, czyli pakiet IBM'a umożliwiający tworzenie witryn głosowych z dołączoną specjalną wersją Opery (z uaktywnionymi niektórymi funkcjami głosowymi). Ostatnia wersja Multimodal Browsera, którą posiadam, zawiera Operę... 7.02. Sprawdzę, czy nie ma nowszej wersji...

Po "odkryciu" okienka "preferencji mowy" musiałem oczywiście wprowadzić kilka poprawek w pliku językowym (nie wszystkie teksty można jednak obecnie przetłumaczyć). Wygląda ono tak:
http://operapl.prv.pl/tmp/voice.png

Tajemniczy skrót NAM (w oryginale PTT) oznacza naciśnij aby mówić (push to talk)

Poprawiony plik trafił już dawno do OS (są tam również inne poprawki, np. Wznów zamiast Odzyskaj), jednak OS wciąż wykorzystuje starą wersję... Zastanawiam się nad opublikowaniem najnowszej wersji pliku językowego, jako wersji "nieoficjalnej"...

Użytkownicy dostępnego obecnie polskiego pliku językowego zobaczą w okienku "preferencji mowy" straszny bełkot wink

Mareczek84 napisał(a):

No pieknie i andol zrobil ze mnie bezdusznego.

Ja doskonale rozumiem potrzebe dla takich ludzi jednak uwazam ze taki program powinien byc ale jako uniwersalny dla calego systemu a nie dla samej opery.

Mayor napisał(a):

coś takiego juz istnieje jako wtyczka do PowerGG, tzw. 'Gadacz', plugin czyta tekst wpisywany przez kogoś bądź wskazany (wklejony) przez usera. Jeśli dobrze pamiętam wtyczka z syntezatorem mowy zajmowała ok. 10 mb także to nie będzie jakaś zupełna nowość (czytanie tekstu np. z www).
Faktycznie rozpoznawanie pisma(drukowanego) a rozpoznawaie mowy (polecenia) to dwie różne bajki

andol napisał(a):

Originally posted by Mareczek84
Ja doskonale rozumiem potrzebe dla takich ludzi jednak uwazam ze taki program powinien byc ale jako uniwersalny dla calego systemu a nie dla samej opery.



Skoro Opera będzie miała (czy też ma w wersji MB) wbudowane funkcje głosowe służące do obsługi VoiceXML oraz X+V -- dlaczego ich *dodatkowo* nie wykorzystać w celu dodania nowej funkcjonalności (sterowanie interfejsem / czytanie zwykłych stron)?

andol napisał(a):

Originally posted by Mayor
coś takiego juz istnieje jako wtyczka do PowerGG, tzw. 'Gadacz', plugin czyta tekst wpisywany przez kogoś bądź wskazany (wklejony) przez usera. Jeśli dobrze pamiętam wtyczka z syntezatorem mowy zajmowała ok. 10 mb także to nie będzie jakaś zupełna nowość (czytanie tekstu np. z www).
Faktycznie rozpoznawanie pisma(drukowanego) a rozpoznawaie mowy (polecenia) to dwie różne bajki



Rozumiem, że mówiąc "rozpoznawanie pisma" masz na myśli "syntezę mowy" wink

Nie znam wtyczki o której mówisz (nie używam PowerGG), jednak podejrzewam, że skoro zajmowała ona aż tyle miejsca -- została stworzona za pomocą prymitywnych technik przez osobę, która nie zajmuje się zawodowo (ani nawet hobbystycznie "na poważnie") tą tematyką wink

Nie jest moim zamiarem urażenie autora tej wtyczki.

Mayor napisał(a):

już spiesze sprostować: poszukałem i zajmuje 'tylko' 4,5 Mb, miałem gdzieś w instalkach kilka takich syntezatorów i wszystkie razem zajmowały koło 10 Mb właśnie

ten o którym mówie zwie się Rozmowy 121 (teraz na pewno jest już nowsza wersja) i stworzony został przez WP dla ich komunikatora WP Kontakt (potrafi współpracować za pomocą wtyczki z PowerGG)
poszukałem troche w googlach i widze że takie rozmiary to nic specjalnego np. tu niejaki syntezator DANT zajmuje 8,5 Mb

Nie jest moim zamiarem urażenie autora tej wtyczki.


domyślam się dlaczego p

andol napisał(a):

Zainteresowanych wielomodalną przeglądarką zapraszam tutaj:
http://www-3.ibm.com/software/pervasive/multimodal/

Po dokonaniu bezpłatnej rejestracji można pobrać sobie pakiet w skład którego wchodzi m.in. Opera z funkcjami głosowymi.
Pakiecik jest dość ciężki -- waży 126.5 MB

Nie każdy może mieć ochotę na pobieranie. Ale jeśli chcecie poczytać (po angielsku), to pod powyższym adresem znajdziecie szereg ciekawych odnośników związanych z tą tematyką.

wyzimir napisał(a):

Originally posted by andol
Skoro Opera będzie miała (czy też ma w wersji MB) wbudowane funkcje głosowe służące do obsługi VoiceXML oraz X+V -- dlaczego ich *dodatkowo* nie wykorzystać w celu dodania nowej funkcjonalności (sterowanie interfejsem / czytanie zwykłych stron)?


Co to znaczy zwykłych stron i jakie to są te niezwykłe?

oksza napisał(a):

-->> andol

Skoro ta technologia jest już rozwijana - czy możemy liczyc na implementację prostego systemu rozpoznawania mowy i przypisywania "znakom głosowym" funkcji w najnowszej O? To by było chyba raczej proste...

andol napisał(a):

Originally posted by wyzimir
Co to znaczy zwykłych stron i jakie to są te niezwykłe?



Te "niezwykłe" wink to strony X+V (XHTML + Voice) oraz VoiceXML, czyli strony z którymi możesz "porozumiewać" się za pomocą głosu.

andol napisał(a):

Originally posted by oksza
-->> andol

Skoro ta technologia jest już rozwijana - czy możemy liczyc na implementację prostego systemu rozpoznawania mowy i przypisywania "znakom głosowym" funkcji w najnowszej O? To by było chyba raczej proste...



Zależy, co masz na myśli mówiąc "najnowsza". Jeśli 7.30 -- to nie liczyłbym na to. 7.40 (jeśli takowa będzie) również nie.
Ale prawdę mówiąc -- ja nic na ten temat nie wiem i nie sądzę, aby ktokolwiek z OS puścił parę z hm... klawiatury.