Modele przestrzeni stanów (SSM) to modele tworzone w celu reprezentowania systemów dynamicznych przy użyciu zmiennych stanu. Modele te działają głównie z danymi szeregów czasowych i wykorzystują zestaw równań różniczkowych pierwszego rzędu do opisu systemu. Dzięki najnowszym osiągnięciom technologicznym SSM radzi sobie znakomicie w takich obszarach, jak badania finansowe i prognozowanie szeregów czasowych. Jednak jednym z obszarów, w którym oczekiwania nie są spełnione, są zadania modelowania języka, ponieważ nie mogą one dorównać wydajności systemów transformatorowych. SSM są również wolniejsze niż konwertery, pomimo prawie liniowego, a nie kwadratowego pomiaru długości sekwencji. Naukowcy uważają, że głównym powodem tego jest brak korzystania z urządzeń.
Naukowcy z Uniwersytetu Stanforda współpracowali z Uniwersytetem Stanowym Nowego Jorku w Buffalo, próbując zrozumieć i zlikwidować lukę między mechanizmami uwagi modelu języka transformatora a SSM. Zespół udokumentował wyniki swoich badań w najnowszym artykule.Głodne, głodne hipopotamy: w kierunku modelowania języka przy użyciu modeli przestrzeni stanówBadali również różne sposoby zmniejszenia bariery sprzętowej między SSM a uwagą i opracowali nowy algorytm przekazywania stanu o nazwie FlashConv, który osiąga dwukrotną akcelerację w skali Long Range Arena i umożliwia generowanie tekstu 1,6 razy szybciej niż tradycyjne architektury przełączników.
Dwie główne cechy, z którymi borykają się obecne SSM, to zapamiętywanie wcześniej napotkanych tokenów i porównywanie tokenów między sekwencjami. Zespół wykorzystał zadania modelowania języka syntetycznego, które koncentrują się na manipulacji tekstem, aby zidentyfikować luki ekspresyjne między SSM a uwagą. Zespół znacząco przyczynił się do stworzenia nowej warstwy SSM o nazwie Hungry Hungry Hippo (H3) jako alternatywy dla uwagi w modelowaniu językowym. Proponowana warstwa H3 składa się z dwóch dyskretnych SSM z multiplikatywnymi interakcjami między odpowiednimi projekcjami wejściowymi i wyjściowymi, aby symulować porównania między różnymi punktami w sekwencji. H3 wypada korzystnie w porównaniu z Transformers w OpenWebText pod względem zamieszania i dopasowania uwagi do języków syntetycznych. Ponadto w teście porównawczym OpenWebText hybrydowy model uwagi H3 przewyższa Transformers o 1,0 PPL (zamieszanie).
Naukowcy zaproponowali również FlashConv, podejście hierarchiczne, jako nadrzędne podejście uwzględniające sprzęt dla SSM. Algorytm ma umożliwić SSM wykorzystanie współczesnych akceleratorów i działać z prędkością większą niż uwaga. FlashConv wykorzystuje algorytm FFT (Fast Fourier Transform) w celu zwiększenia wydajności łączenia tekstu. Dane wejściowe można podzielić na mniejsze części, aby zmieściły się w pamięci SRAM procesora graficznego w celu wydajnego obliczania, wykorzystując rekurencyjne właściwości SSM do przetwarzania danych wejściowych w porcjach. W rezultacie FlashConv może skalować SSM na GPU SRAM do dowolnej długości sekwencji z niemal liniową złożonością obliczeniową.
Po kilku testach beta zespół doszedł do wniosku, że FlashConv ustanowił nowy rekord prędkości w skali długodystansowej, osiągając dwukrotne przyspieszenie. Ponadto zespół rozszerzył hybrydowe modele językowe H3 o parametry do 1,3 miliarda za pomocą FlashConv. Modele te wyróżniały się w większości zadań testowych SuperGLUE przy użyciu uczenia się bez i kilku strzałów. W rezultacie naukowcy doszli do wniosku, że skalowanie SSM do większych rozmiarów jest potencjalnym podejściem. Naukowcy są chętni do dalszego łączenia uzupełniających się cech SSM z zainteresowaniem ich przyszłymi pracami. Wynikało to przede wszystkim z ich wzrostu wydajności w porównaniu z czystym modelem H3 i Transformers poprzez połączenie dwóch warstw uwagi w H3. Naukowcy chętnie zbadają bardziej złożone projekty łączenia SSM.
zeskanuj papier. Cała zasługa tych badań należy się badaczom tego projektu. Nie zapomnij też dołączyć Nasza strona na Reddicie I kanał na discordziegdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.
Khushboo Gupta jest stażystą konsultantem w MarktechPost. Obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Goa. Pasjonuje się obszarami uczenia maszynowego, przetwarzania języka naturalnego i tworzenia stron internetowych. Lubisz uczyć się więcej o dziedzinie technicznej, biorąc udział w różnych wyzwaniach.
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”
More Stories
Firma zajmująca się planowaniem powierzchni handlowych CADS postrzega technologię jako odpowiedź na Święta Wielkanocne i inne sezonowe wyzwania w 2024 r. — Retail Technology Innovation Hub
Astronomowie odkryli, że woda unosi się w części przestrzeni, która tworzy planetę
Tęskniłam za nim bardzo długo! Satelita NASA i martwy rosyjski statek kosmiczny zbliżają się do siebie na swojej orbicie