Modele przestrzeni stanów (SSM) to modele tworzone w celu reprezentowania systemów dynamicznych przy użyciu zmiennych stanu. Modele te działają głównie z danymi szeregów czasowych i wykorzystują zestaw równań różniczkowych pierwszego rzędu do opisu systemu. Dzięki najnowszym osiągnięciom technologicznym SSM radzi sobie znakomicie w takich obszarach, jak badania finansowe i prognozowanie szeregów czasowych. Jednak jednym z obszarów, w którym oczekiwania nie są spełnione, są zadania modelowania języka, ponieważ nie mogą one dorównać wydajności systemów transformatorowych. SSM są również wolniejsze niż konwertery, pomimo prawie liniowego, a nie kwadratowego pomiaru długości sekwencji. Naukowcy uważają, że głównym powodem tego jest brak korzystania z urządzeń.
Naukowcy z Uniwersytetu Stanforda współpracowali z Uniwersytetem Stanowym Nowego Jorku w Buffalo, próbując zrozumieć i zlikwidować lukę między mechanizmami uwagi modelu języka transformatora a SSM. Zespół udokumentował wyniki swoich badań w najnowszym artykule.Głodne, głodne hipopotamy: w kierunku modelowania języka przy użyciu modeli przestrzeni stanówBadali również różne sposoby zmniejszenia bariery sprzętowej między SSM a uwagą i opracowali nowy algorytm przekazywania stanu o nazwie FlashConv, który osiąga dwukrotną akcelerację w skali Long Range Arena i umożliwia generowanie tekstu 1,6 razy szybciej niż tradycyjne architektury przełączników.
Dwie główne cechy, z którymi borykają się obecne SSM, to zapamiętywanie wcześniej napotkanych tokenów i porównywanie tokenów między sekwencjami. Zespół wykorzystał zadania modelowania języka syntetycznego, które koncentrują się na manipulacji tekstem, aby zidentyfikować luki ekspresyjne między SSM a uwagą. Zespół znacząco przyczynił się do stworzenia nowej warstwy SSM o nazwie Hungry Hungry Hippo (H3) jako alternatywy dla uwagi w modelowaniu językowym. Proponowana warstwa H3 składa się z dwóch dyskretnych SSM z multiplikatywnymi interakcjami między odpowiednimi projekcjami wejściowymi i wyjściowymi, aby symulować porównania między różnymi punktami w sekwencji. H3 wypada korzystnie w porównaniu z Transformers w OpenWebText pod względem zamieszania i dopasowania uwagi do języków syntetycznych. Ponadto w teście porównawczym OpenWebText hybrydowy model uwagi H3 przewyższa Transformers o 1,0 PPL (zamieszanie).
Naukowcy zaproponowali również FlashConv, podejście hierarchiczne, jako nadrzędne podejście uwzględniające sprzęt dla SSM. Algorytm ma umożliwić SSM wykorzystanie współczesnych akceleratorów i działać z prędkością większą niż uwaga. FlashConv wykorzystuje algorytm FFT (Fast Fourier Transform) w celu zwiększenia wydajności łączenia tekstu. Dane wejściowe można podzielić na mniejsze części, aby zmieściły się w pamięci SRAM procesora graficznego w celu wydajnego obliczania, wykorzystując rekurencyjne właściwości SSM do przetwarzania danych wejściowych w porcjach. W rezultacie FlashConv może skalować SSM na GPU SRAM do dowolnej długości sekwencji z niemal liniową złożonością obliczeniową.
Po kilku testach beta zespół doszedł do wniosku, że FlashConv ustanowił nowy rekord prędkości w skali długodystansowej, osiągając dwukrotne przyspieszenie. Ponadto zespół rozszerzył hybrydowe modele językowe H3 o parametry do 1,3 miliarda za pomocą FlashConv. Modele te wyróżniały się w większości zadań testowych SuperGLUE przy użyciu uczenia się bez i kilku strzałów. W rezultacie naukowcy doszli do wniosku, że skalowanie SSM do większych rozmiarów jest potencjalnym podejściem. Naukowcy są chętni do dalszego łączenia uzupełniających się cech SSM z zainteresowaniem ich przyszłymi pracami. Wynikało to przede wszystkim z ich wzrostu wydajności w porównaniu z czystym modelem H3 i Transformers poprzez połączenie dwóch warstw uwagi w H3. Naukowcy chętnie zbadają bardziej złożone projekty łączenia SSM.
zeskanuj papier. Cała zasługa tych badań należy się badaczom tego projektu. Nie zapomnij też dołączyć Nasza strona na Reddicie I kanał na discordziegdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.
Khushboo Gupta jest stażystą konsultantem w MarktechPost. Obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Goa. Pasjonuje się obszarami uczenia maszynowego, przetwarzania języka naturalnego i tworzenia stron internetowych. Lubisz uczyć się więcej o dziedzinie technicznej, biorąc udział w różnych wyzwaniach.
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”
More Stories
Naukowcy odkryli dowody na wymarły gatunek człowieka pół miliona lat temu
HSN Neuron odkrywa tajemnice zachowania
Powierzchnie przemysłowe i magazynowe cieszą się największym zainteresowaniem ze strony nabywców komercyjnych