Czas e-biznesu

Wszystkie najświeższe informacje o Polsce z Czasu e Biznesu.

Tworzenie technologii opartych na sztucznej inteligencji w celu stworzenia nowego wygodnego światowego serwisu Samsung Global Newsroom

Ciąg dalszy nastąpi Seria 1

W tej serii przekaźników Samsung Newsroom przedstawia technologów z ośrodków badawczo-rozwojowych Samsunga na całym świecie, aby dowiedzieć się więcej o wykonywanej przez nich pracy i sposobach, w jakie mogą bezpośrednio poprawić jakość życia konsumentów.

Drugim ekspertem z serii jest Lukas Slapinsky, przewodniczący zespołu sztucznej inteligencji w Samsung R&D Institute Poland (SRPOL). Slapiński dołączył do SRPOL w 2013 roku jako Starszy Inżynier i po 8 latach oddanej pracy kieruje teraz zespołem AI w SRPOL. Czytaj dalej, aby dowiedzieć się więcej o niesamowitym odkryciu, w które Srabinsky i jego zespół byli zaangażowani w SRPOL.

P: Wiadomo, że projektowanie rozwiązań w dziedzinie rozpoznawania mowy jest bardzo złożone. Jakie wyzwania napotkałeś podczas pracy nad technologiami językowymi i jak je pokonałeś?

Moim zdaniem technologie związane z językiem są bardziej złożone niż inne technologie. Ludzkość porozumiewa się w około 7000 stale ewoluujących językach, podzielonych na nieskończone akcenty i dialekty. I na przykład język ludzki ma znacznie mniejszy cel niż obraz, który można opisać wzorami matematycznymi. Ludzie szyfrują swoje myśli w wiadomości jako zestaw dźwięków lub liter, które są następnie dekodowane i interpretowane przez innych. Ponieważ każda faza tego procesu jest wyjątkowa, twórcza i nieokreślona, ​​interakcja międzyludzka oparta na języku jest bardziej złożona i niejednoznaczna. Dzięki temu z jednej strony możemy cieszyć się piękną poezją i śmiesznymi dowcipami, z drugiej zaś czasem zdarzają nam się nieporozumienia.

Osoby zajmujące się badaniami i rozwojem, które pracują w przetwarzaniu języka naturalnego (NLP) często osiągają własne, nieodłączne ludzkie ograniczenia. Mamy problemy z wyraźną komunikacją ze współpracownikami w pracy lub z rodziną w domu. Na przykład, w jaki sposób inżynier, który mówi w 2 językach, może zaprojektować i zakodować system tłumaczenia maszynowego na 40 różnych języków? Rozwiązujemy ten konflikt za pomocą technologii uczenia maszynowego.

Podczas procesu zwanego „uczeniem” automatycznie wydobywamy z naszych baz danych wspólne wzorce na podstawie przykładów i zapamiętujemy je w przykładowym formacie. Aby stworzyć system tłumaczenia maszynowego, szkolimy sieć neuronową, aby mapować zdanie w różnych językach na podstawie milionów przykładów, z których wszystkie zostały starannie zebrane i wstępnie oczyszczone. To proste, ale tutaj stawiamy czoła 3 podstawowym wyzwaniom.

READ  Brighton w pełni pozyskał polskiego młodzieńca Kozłowskiego - Ghana najnowsze wiadomości piłkarskie, wyniki na żywo, rezultaty

Pierwszym wyzwaniem jest zaprojektowanie odpowiedniej architektury modelu uczenia maszynowego, która potrafi zapamiętywać i uogólniać odpowiednie formy językowe do tłumaczenia maszynowego, analizy emocji, abstrakcji tekstu i innych zagadnień.

Drugim wyzwaniem jest stworzenie odpowiednich danych szkoleniowych, tak aby systemy uczenia maszynowego mogły identyfikować i zapamiętywać tylko wzorce prezentowane w szkoleniowej bazie danych.

Największym wyzwaniem jest ustanowienie już wyszkolonego modelu uczenia maszynowego na dedykowanej chmurze lub platformie na urządzeniu.

Sprostamy tym wyzwaniom poprzez niekończące się eksperymenty z ogromną wiedzą naszych inżynierów, wyrafinowane podejścia do gromadzenia danych i zaawansowane struktury uczenia maszynowego.

P: Czy możesz krótko przedstawić swój zespół AI, Samsung R&D Institute Poland (SRPOL) i prace, które się tam odbywają?

SRPOL jest jednym z największych międzynarodowych centrów badawczo-rozwojowych oprogramowania w Polsce. Zlokalizowany jest w dwóch miastach: Warszawie, stolicy Polski i głównym centrum technologicznym w jej regionie krakowskim. Ściśle współpracujemy z lokalnymi startupami, uczelniami i instytutami badawczymi.

Celem zespołu AI w SRPOL jest tworzenie i wzbogacanie ludzkiego życia o funkcje, narzędzia i usługi oparte na AI. Skupiamy się głównie na obszarach NLP i audio intelligence, ale specjalizujemy się również w różnych specjalnościach, w tym systemach poleceń, pozycjonowaniu wewnętrznym, analizie wizualnej i AR.

Q: Jako przewodniczący zespołu AI w Instytucie Polskim od 2018 roku nadzorowałeś niezliczone projekty z i bez NLP. Jaką pracę teraz wykonujesz ty i twój zespół?

W obszarze NLP kontynuujemy naszą podróż, która rozpoczęła się 10 lat temu od rozwoju systemów takich jak tłumaczenie maszynowe, pytania i odpowiedzi oraz analiza dialogu. Pracujemy nad skalowalnymi, potężnymi usługami w chmurze oraz szybkimi aplikacjami działającymi w trybie offline.

Inteligencja dźwiękowa to dla nas nowy obszar. Wiele lat temu zaczęliśmy koncentrować się na naszych umiejętnościach badawczych, ponieważ obszar ten zyskał na znaczeniu. Obecnie zajmujemy się rozpoznawaniem, separacją, aktualizacją i analizą dźwięku. Podczas naszej pracy bierzemy pod uwagę wszystkie poziomy przetwarzania dźwięku, od akustycznego rozumienia wizualnego po strojenie instrukcji audio osadzonych w urządzeniach o bardzo niskich zasobach sprzętowych, takich jak bezprzewodowe słuchawki douszne.

READ  W końcu Polska przez rzut karny odmówiła Szkocji zwycięstwa

P: Twoje zainteresowania techniczne obejmują NLP, eksplorację tekstu i danych, inteligencję audio i nie tylko. Czy Twoje badania bezpośrednio wpłynęły na rozwój konkretnego produktu lub usługi firmy Samsung i jak wkład Twojego zespołu przyniósł korzyści użytkownikom?

SRPOL ma długą historię komercjalizacji technologii AI, ale nie zrobiliśmy tego sami. Jesteśmy dumni z bycia częścią większego filmu, w którym SRPOL ściśle współpracuje z innymi ośrodkami badawczo-rozwojowymi Samsunga i przyczynia się do komercjalizacji.

Na przykład przyczyniliśmy się do rozwoju wielu inteligentnych funkcji wprowadzania tekstu, w tym klawiatury ekranowej Samsunga dla urządzeń mobilnych, funkcji hashtagu, sugestii tytułu Samsung Note i inteligentnych odpowiedzi tekstowych na smartwatchach.

Przyczyniliśmy się również do stworzenia systemu rekomendacji Galaxy Store, który poleca użytkownikowi najciekawsze gry na podstawie jego preferencji.

P: Jako prawnik zajmujący się nowymi dyscyplinami sztucznej inteligencji, takimi jak inteligencja audio, jakie obecnie uważasz za kluczowe trendy w swojej branży? Jak ta technologia wpływa na codzienne życie ludzi?

Mam nadzieję, że Audio Intelligence będzie kolejnym konwerterem gier dla wszystkich urządzeń elektroniki użytkowej. Praca w analityce dźwięku jest bardzo ważna, ponieważ jest to brakująca część zaawansowanych, prawdziwie skoncentrowanych na człowieku systemach opartych na sztucznej inteligencji.

Potężne systemy NLP przekazują intencje użytkownika za pomocą tekstu i mowy. Algorytmy wizji komputerowej stoją za wyjściem prawie każdej kamery i treści wizualnych. Większości z nas trudno wyobrazić sobie prowadzenie samochodu bez nawigacji, pisanie wiadomości bez sprawdzania pisowni czy wyszukiwanie informacji bez internetu. Jednak, z wyjątkiem kilku profesjonalnych zastosowań, jak dotąd rzadko używamy inteligentnej technologii audio w celu poszerzenia naszej wiedzy. Moim zdaniem wkrótce się to zmieni.

Wyobraź sobie, że mamy wspólną technologię, która pozwala ludziom wybierać, co i jak chcą słyszeć. Na przykład podczas obiadu z przyjacielem w parku położonym w tętniącym życiem centrum miasta słychać tylko odgłosy natury i osoby, z którą się rozmawia. Albo wyobraźmy sobie zaawansowany system VR lub AR, zwany ostatnio Metawares, który tworzy dźwięk 3D bezpośrednio w głowach ludzi. Obie te koncepcje tworzą setki nowych przypadków aplikacji, ale idźmy dalej. Co powiesz na słuchanie rzeczy, których ludzie nie słyszą w tej chwili? Teraz ludzie słyszą tylko krótkie spektrum różnych dźwięków. Nasz świat jest pełen znaczących dźwięków i, w większości, obecne technologie AI nie są w to zaangażowane. Wierzę, że wraz z rozwojem technologii inteligencji audio wszystko to będzie miało ogromny wpływ na ludzkie życie.

READ  Morska Straż Graniczna otrzymała nowy statek patrolowy – pierwsza wiadomość

Naukowcy z Samsung R&D Institute pracują z symulatorem głowy i tułowia (HATS) nad rozwojem technologii aktywnej redukcji szumów (ANC).

P: Jak integruje Pan aktualne trendy w swoich badaniach prowadzonych w Instytucie R&D Samsung w Polsce?

Oprócz NLP i audio pracujemy również nad znalezieniem najlepszych sposobów tworzenia prawdziwie multimodalnych systemów. W tym celu badamy i analizujemy przypadki użyteczności na różne sposoby. Taka analiza jest możliwa dla naszego zróżnicowanego i średniozaawansowanego zespołu składającego się z inżynierów, lingwistów, naukowców zajmujących się danymi i wielu innych.

P: Jakie jest Twoje najważniejsze dotychczasowe osiągnięcie w SRPOL?

To byłoby nasze rozwiązanie do tłumaczenia maszynowego. Nasze rozwiązanie odnosi sukcesy w różnych konkursach przez pięć kolejnych lat: Międzynarodowe Warsztaty Tłumaczenia Języka Mówionego (IWSLT) od 2017 do 2020; Warsztaty z tłumaczenia maszynowego (WMT) w 2020 r.; Oraz warsztaty na temat tłumaczeń azjatyckich (WAT) w 2021 r. To jedne z najcenniejszych międzynarodowych konkursów w naszej branży.

Tegoroczne wyróżnienie w WAT było szczególnie satysfakcjonującym kamieniem milowym, ponieważ opracowanie naszego rozwiązania dla języków azjatyckich było przede wszystkim trudnym wyczynem dla nas, polskich inżynierów – ale to osiągnięcie dowodzi prawdziwej mocy naszej technologii, która wykracza poza samo demo wyświetlacz.

Jestem bardzo dumny z tempa rozwoju, jakie osiągnął zespół Audio Intelligence i jego technologia. W ciągu kilku lat, po świeżym starcie, mogliśmy stanąć na podeście warsztatu z wykrywania i klasyfikacji scen dźwiękowych i zdarzeń przez dwa kolejne lata, 2019 i 2020. Patent w tej dziedzinie. Głęboko wierzę, że to początek naszej pomyślnej działalności na tym polu.

Poniższy rozdział można znaleźć w rozmowie z Bin Tai, ekspertem od uczenia maszynowego z chińskiej firmy badawczej China-Beijing.