
Ostatnio coraz częściej mówi się o agentach AI, którzy otrzymują polecenie i faktycznie wykonują zadanie, łącznie z wymaganymi dotknięciami i przesunięciami po telefonie. Ta rozmowa o budowaniu agenta AI bardzo przypomina mi „nowego Asystenta Google” ogłoszonego wraz z Pixelem 4 w 2019 roku.
Na I/O 2019 Google zadebiutowało asystentem nowej generacji. Hipoteza była taka, że przetwarzanie dźwięku na urządzeniu sprawi, że „stukanie w celu włączenia telefonu będzie prawie powolne”.
Google pokazał proste polecenia, które obejmowały otwieranie i kontrolowanie aplikacji, natomiast bardziej złożony pomysł dotyczył tego, „w jaki sposób wbudowany asystent urządzenia może koordynować zadania między aplikacjami”. Przykładem było otrzymanie przychodzącej wiadomości tekstowej, udzielenie odpowiedzi głosowej, a następnie pomysł wyszukania towarzyszącego obrazu i wysłania go. Możliwości „uruchamiania” i „wielozadaniowości” uzupełniają możliwości Gmaila w zakresie „komponowania” w języku naturalnym.
Ten asystent nowej generacji umożliwi natychmiastową obsługę telefonu za pomocą głosu, wykonywanie wielu zadań jednocześnie w aplikacjach i wykonywanie złożonych czynności, a wszystko to przy praktycznie zerowym opóźnieniu.
Nowy Asystent został wprowadzony na Pixela 4 jeszcze tego samego roku i stał się dostępny na wszystkich kolejnych urządzeniach Google.
- „Zrobić selfie.” Następnie powiedz „Udostępnij to Ryanowi”.
- W wątku konwersacji powiedz „Odpowiedz, już idę”.
- „Znajdź zajęcia jogi w YouTube”. Następnie powiedz: „Udostępnij to mamie”.
- „Pokazuj mi e-maile od Michelle w Gmailu”.
- Gdy aplikacja Zdjęcia Google jest otwarta, powiedz „Pokaż mi zdjęcia Nowego Jorku”. Następnie powiedz „te w Central Parku”.
- Gdy strona z przepisami jest otwarta w przeglądarce Chrome, możesz powiedzieć „Wyszukaj babeczki czekoladowo-orzechowe”.
- Gdy aplikacja turystyczna jest otwarta, powiedz „Hotele w Paryżu”.
To jest podstawowa idea agentów AI. W zeszłym miesiącu podczas rozmowy telefonicznej Alphabet dotyczącej wyników finansowych Sundar Pichai został zapytany o wpływ generatywnej sztucznej inteligencji na Asystenta. Powiedział, że pozwoli to Asystentowi Google „działać jako serwer proxy w czasie” i „wykraczać poza odpowiedzi i śledzić użytkowników”.
według Informacja W tym tygodniu OpenAI pracuje nad serwerem proxy ChatGPT:
„Według osoby zaznajomionej z tym typem żądań agent powinien wykonywać kliknięcia, przesuwać kursor, wpisywać tekst i wykonywać inne czynności wykonywane przez ludzi podczas pracy z różnymi aplikacjami”.
Następnie jest królik z dużym modelem działania (LAM), który jest przeszkolony do interakcji z istniejącymi interfejsami mobilnymi i stacjonarnymi w celu wykonania określonego zadania.
Wersja wprowadzona przez Asystenta Google w 2019 r. była wysoce wstępnie zaprogramowana i wymagała od użytkowników wybrania określonych fraz, a nie pozwalania ludziom mówić naturalnie, a następnie automatycznego podkreślania akcji. Google oświadczyło wówczas, że Asystent „działa bezproblemowo z wieloma aplikacjami” i że „z biegiem czasu będzie udoskonalać integrację aplikacji”. Według naszej wiedzy nigdy się to nie zdarzyło, a niektóre funkcje oferowane przez Google przestały działać ze względu na zmianę aplikacji. Prawdziwy agent będzie w stanie dostosować się, zamiast polegać na ustalonych warunkach.
Łatwo zobaczyć, jak LLM mógłby ulepszyć tę kwestię, ponieważ w zeszłym roku Google Research zaprezentował prace nad „Umożliwienie interakcji konwersacyjnej z mobilnym interfejsem użytkownika przy użyciu dużych modeli językowych„.
Badania Google wykazały, że ich podejście jest w stanie „szybko zrozumieć intencje mobilnego interfejsu użytkownika”:
Co ciekawe, zaobserwowaliśmy, że podczas tworzenia podsumowań studenci LLM wykorzystywali swoją wcześniejszą wiedzę do wnioskowania o informacjach, które nie są prezentowane w interfejsie użytkownika. W poniższym przykładzie podmiot LLM wywnioskował, że stacje metra należą do systemu londyńskiego metra, podczas gdy wejściowy interfejs użytkownika nie zawiera tej informacji.
Potrafi także odpowiadać na pytania dotyczące treści pojawiających się w interfejsie użytkownika oraz kontrolować je po otrzymaniu instrukcji w języku naturalnym.
Agent Gemini AI dla Twojego urządzenia z Androidem będzie naturalną ewolucją pierwszej, ale nigdy nie zbadanej, próby Google na stworzenie wszechstronnego asystenta, który oferuje nowy sposób korzystania z telefonu. Istnieją jednak funkcje takie jak kopiowanie odpowiedzi na wiadomość, a następnie możliwość powiedzenia „wyślij” bezpośrednio przy pisaniu głosowym Asystenta Gboard.
Wydaje się, że wcześniejsze wysiłki wynikały z tego, że Google spóźniał się z pomysłem i nie posiadał potrzebnej technologii. Teraz, gdy zaszliśmy już tak daleko, mądrze byłoby nadać tym wysiłkom priorytet, aby móc zacząć przewodzić w swojej dziedzinie, a nie doganiać konkurencję.
FTC: Używamy automatycznych linków partnerskich, aby zarabiać. więcej.
„Nieuleczalny entuzjasta muzyki. Piwo. Totalny odkrywca. Wichrzyciel. Oddany fanatyk sieci”.
More Stories
Połączenia na Twitterze są teraz domyślnie włączone. Oto jak to wyłączyć
Electronic Arts zwalnia 5% siły roboczej, zamyka studio i odwołuje gry
Remedy Entertainment kupuje prawa do serii Control od 505 Games za 17 milionów euro