Czas e-biznesu

Wszystkie najświeższe informacje o Polsce z Czasu e Biznesu.

Te badania nad sztuczną inteligencją (AI) badają ekspresywną lukę między rządowymi modelami kosmicznymi a mechanizmami uwagi modelu języka adaptera

Te badania nad sztuczną inteligencją (AI) badają ekspresywną lukę między rządowymi modelami kosmicznymi a mechanizmami uwagi modelu języka adaptera

Modele przestrzeni stanów (SSM) to modele tworzone w celu reprezentowania systemów dynamicznych przy użyciu zmiennych stanu. Modele te działają głównie z danymi szeregów czasowych i wykorzystują zestaw równań różniczkowych pierwszego rzędu do opisu systemu. Dzięki najnowszym osiągnięciom technologicznym SSM radzi sobie znakomicie w takich obszarach, jak badania finansowe i prognozowanie szeregów czasowych. Jednak jednym z obszarów, w którym oczekiwania nie są spełnione, są zadania modelowania języka, ponieważ nie mogą one dorównać wydajności systemów transformatorowych. SSM są również wolniejsze niż konwertery, pomimo prawie liniowego, a nie kwadratowego pomiaru długości sekwencji. Naukowcy uważają, że głównym powodem tego jest brak korzystania z urządzeń.

Naukowcy z Uniwersytetu Stanforda współpracowali z Uniwersytetem Stanowym Nowego Jorku w Buffalo, próbując zrozumieć i zlikwidować lukę między mechanizmami uwagi modelu języka transformatora a SSM. Zespół udokumentował wyniki swoich badań w najnowszym artykule.Głodne, głodne hipopotamy: w kierunku modelowania języka przy użyciu modeli przestrzeni stanówBadali również różne sposoby zmniejszenia bariery sprzętowej między SSM a uwagą i opracowali nowy algorytm przekazywania stanu o nazwie FlashConv, który osiąga dwukrotną akcelerację w skali Long Range Arena i umożliwia generowanie tekstu 1,6 razy szybciej niż tradycyjne architektury przełączników.

Dwie główne cechy, z którymi borykają się obecne SSM, to zapamiętywanie wcześniej napotkanych tokenów i porównywanie tokenów między sekwencjami. Zespół wykorzystał zadania modelowania języka syntetycznego, które koncentrują się na manipulacji tekstem, aby zidentyfikować luki ekspresyjne między SSM a uwagą. Zespół znacząco przyczynił się do stworzenia nowej warstwy SSM o nazwie Hungry Hungry Hippo (H3) jako alternatywy dla uwagi w modelowaniu językowym. Proponowana warstwa H3 składa się z dwóch dyskretnych SSM z multiplikatywnymi interakcjami między odpowiednimi projekcjami wejściowymi i wyjściowymi, aby symulować porównania między różnymi punktami w sekwencji. H3 wypada korzystnie w porównaniu z Transformers w OpenWebText pod względem zamieszania i dopasowania uwagi do języków syntetycznych. Ponadto w teście porównawczym OpenWebText hybrydowy model uwagi H3 przewyższa Transformers o 1,0 PPL (zamieszanie).

Naukowcy zaproponowali również FlashConv, podejście hierarchiczne, jako nadrzędne podejście uwzględniające sprzęt dla SSM. Algorytm ma umożliwić SSM wykorzystanie współczesnych akceleratorów i działać z prędkością większą niż uwaga. FlashConv wykorzystuje algorytm FFT (Fast Fourier Transform) w celu zwiększenia wydajności łączenia tekstu. Dane wejściowe można podzielić na mniejsze części, aby zmieściły się w pamięci SRAM procesora graficznego w celu wydajnego obliczania, wykorzystując rekurencyjne właściwości SSM do przetwarzania danych wejściowych w porcjach. W rezultacie FlashConv może skalować SSM na GPU SRAM do dowolnej długości sekwencji z niemal liniową złożonością obliczeniową.

READ  Uszkodzony Sojuz MS-22 wraca do domu bez załogi

Po kilku testach beta zespół doszedł do wniosku, że FlashConv ustanowił nowy rekord prędkości w skali długodystansowej, osiągając dwukrotne przyspieszenie. Ponadto zespół rozszerzył hybrydowe modele językowe H3 o parametry do 1,3 miliarda za pomocą FlashConv. Modele te wyróżniały się w większości zadań testowych SuperGLUE przy użyciu uczenia się bez i kilku strzałów. W rezultacie naukowcy doszli do wniosku, że skalowanie SSM do większych rozmiarów jest potencjalnym podejściem. Naukowcy są chętni do dalszego łączenia uzupełniających się cech SSM z zainteresowaniem ich przyszłymi pracami. Wynikało to przede wszystkim z ich wzrostu wydajności w porównaniu z czystym modelem H3 i Transformers poprzez połączenie dwóch warstw uwagi w H3. Naukowcy chętnie zbadają bardziej złożone projekty łączenia SSM.


zeskanuj papier. Cała zasługa tych badań należy się badaczom tego projektu. Nie zapomnij też dołączyć Nasza strona na Reddicie I kanał na discordziegdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.