
Chat GPT a sprawa tech writerska
Ostatnimi czasy sztuczna inteligencja nie schodzi z nagłówków gazet, a wręcz panoszy się i grzeje w blasku fleszy. W cyberprzestrzeni aż huczy od rewelacji i opinii. Jedni wieszczą zagładę ludzkości, inni przepowiadają dla nas świetlaną przyszłość rodem z Jetsonów. Każdy w jakiś sposób mierzy się z nową sytuacją i ma własną perspektywę. Czy warto się tym zainteresować, czy może lepiej machnąć ręką? W artykule nie dostaniecie jednoznacznej odpowiedzi. Mam nadzieję, że dostaniecie garść obserwacji, które pomogą w poszukaniu własnej interpretacji.
Temat jest wielowymiarowy i rozwojowy, dlatego publikując ten artykuł jestem pewien, że szybko się on zdezaktualizuje - niemal każdego tygodnia dzieje się coś nowego na tym polu, a nasze rozumienie tych kwestii stale ewoluuje.
Co wiedziałem o AI
Zanim przyjrzałem się temu tematowi, moja wiedza była dość skromna. Swego czasu zafascynowałem się grafikami Deep Dream i Dall-E Mini, które same zasługują na osobny artykuł. Poniżej przykłady mojej twórczości.
Uczestniczyłem też w warsztatach Lance'a Cummingsa w czasie konferencji SOAP w 2022. Narzędzia OpenAI wydały mi się intrygujące, mimo to temat zaparkowałem, widząc w nich raczej potencjał dla twórców treści niż dla tech writerów. Aż do teraz.
Nie jestem ekspertem od żadnych sieci neuronowych ani tych biologicznych, ani algorytmicznych 😊 Niemniej postanowiłem poruszyć własnymi sieciami neuronowymi, żeby dowiedzieć się czegoś więcej.
W ramach przygotowań skonsultowałem się z kilkoma ekspertami różnych dziedzin, prezentujących różne spojrzenia.
Dodam, że nigdy nie pociągały mnie chat boty czy asystenci głosowi na smartfonie. Za to od dziecka śledzę wizje AI w popkulturze: Terminator, Alien, Knight Rider, Odyseja Kosmiczna, Matrix, Ex Machina... Filmy i seriale SF, chcąc nie chcąc, ukształtowały nasze rozumienie tego, czym sztuczna inteligencja może być i czy należy się jej obawiać. Na długo zanim mogliśmy korzystać z owoców takich technologii, nasza zbiorowa wyobraźnia była już dawno zagospodarowana przez koncepcje rodem z popkultury.
W filmie "Obcy" Ridleya Scotta z 1979, komunikacja z komputerem pokładowym "Matka" jest konwersacyjna, podobnie jak interakcja z ChatGPT. Oby na tym podobieństwa się skończyły.
Artykuł ten nie jest pracą badawczą, są to moje luźne impresje i wrażenia po korzystaniu z ChatGPT w wersji 3.5. Temat miejscami traktuję z przymrużeniem oka.
3,2,1, zaczynamy!
Czym jest ChatGPT?
ChatGPT to aplikacja funkcjonująca jak chat bot, oparta o model językowy (Large Language Model). Rozwiązanie zostało opracowane przez firmę OpenAI i udostępnione szerokiej publice, by przetestować jego działanie i je ulepszyć. Możecie je wypróbować za darmo w wersji 3.5.
Do niej odnoszę się w tym artykule. Nie korzystałem jeszcze z wersji 4.0, która jest płatna (20 dolarów na miesiąc).
Poniżej zestawienie pojęć, począwszy od nadrzędnego i najszerszego - AI. Modele LLM stanowią węższą dziedzinę, zawierającą się w dziedzinach z wyższych poziomów.
- Artificial Intelligence - sztuczna inteligencja
- Machine Learning - uczenie maszynowe
- Deep Learning - uczenie głębokie
- Neural Networks - sztuczne sieci neuronowe
- Large Language Models - wielkie modele językowe
- Generative pre-trained transformer (GPT) - rodzaj modelu językowego
Rozwińmy słowa, z których składa się nazwa rodzaju modelu:
-
- Generative
- model generatywny na podstawie istniejących danych generuje nowe dane
zgodne ze schematem z danych źródłowych. Dla kontrastu, innym typem są
algorytmy dyskryminacyjne, na przykład te, które potrafią określać
prawdopodobieństwo, że dany obraz przedstawia konkretny typ obiektu.
- Pre-trained - identyfikowanie wzorców i schematów na podstawie dużej ilości danych, które nie były oznaczone etykietami przez człowieka.
- _Transformer* - metodę transformatorów stosuje się do różnych celów w AI. W przypadku ChatGPT przetwarzane są dane sekwencyjne takie jak zapis mowy ludzkiej. Cechą charakterystyczną jest zdolność identyfikacji zależności między oddalonymi wyrazami w zdaniu czy całym tekście. Stosowany jest tzw. mechanizm uwagi, pozwalający na skupienie się na częściach danych, które mają największe znaczenie dla danego zadania.
- Generative
- model generatywny na podstawie istniejących danych generuje nowe dane
zgodne ze schematem z danych źródłowych. Dla kontrastu, innym typem są
algorytmy dyskryminacyjne, na przykład te, które potrafią określać
prawdopodobieństwo, że dany obraz przedstawia konkretny typ obiektu.
Wybaczcie, ale nie wprowadzę wszystkich pojęć, niektóre rozumiem dosyć pobieżnie. Jeśli jesteście w podobnej sytuacji, to jest to dobra okazja do zadania pytania ChatGPT. Zależało mi na tym, żeby zarysować różne warstwy pojęciowe, z jakimi przychodzi się nam mierzyć. ChatGPT jest przykładem modelu językowego wpisującego się w powyższe nurty technologiczne. Większość artykułu dotyczy poziomu ChatGPT i modeli językowych typu GPT, czasem będę przeskakiwał na bardziej ogólny poziom sztucznej inteligencji.
Poniżej pomocna grafika z prezentacji Naomi Papoushado z SOAP 2022:
Z punktu widzenia użytkownika aplikacja ta działa nieco jak wyszukiwarka internetowa, której zadajemy pytania pełnymi zdaniami i w odpowiedzi otrzymujemy wygenerowany tekst. Jeśli nie jesteśmy zadowoleni możemy zmodyfikować rezultat lub eksplorować inne aspekty. Wystarczy podać polecenie pomocnicze, które naprowadzi aplikację na oczekiwany tor. Interakcja przypomina konwersacje z wirtualnym asystentem.
Pamiętam czasy, gdy wprowadzenie wirtualnego asystenta nie cieszyło się takim uznaniem.
Najlepszym pytaniem jakie można było zadać Clippiemu z Microsoft Office 97 było "Jaki jest sens życia?". Odpowiedzią było "Wklejanie clip artów do PowerPointa". Po tym nastała całkowita jasność w temacie.
Jak powstał?
Model powstał w oparciu o ogromną ilość danych tekstowych - 45 TB. Samoistnie doszło do wyszukania korelacji między różnymi tekstami.
Następnie model był uczony optymalnego odpowiadania przez ludzkich trenerów, którzy promowali najlepiej dopasowane odpowiedzi, czasami prezentowali własne wzorce. Po wielu iteracjach sztuczna sieć neuronowa stała się naprawdę dobra w odgadywaniu odpowiedzi, jakich człowiek oczekuje, dzięki znajomości statystycznie prawdopodobnych słów, które powinny paść.
Czy nauczono go gramatyki?
Model przemielił dużą ilość danych i wykrył zależności między słowami, szyk, zasady gramatyczne. W odróżnieniu od innych modeli, zasady gramatyczne nie zostały zakodowane przez programistów.
Czy zna tylko angielski?
Dominująca część tekstów źródłowych była anglojęzyczna, natomiast całkiem nieźle reaguje na zapytania w 30 innych językach, w tym także po polsku. Z racji ilości danych, zakładam, że po angielsku narzędzie ma działać najpotężniej.
Ciekawostka: sprawdzałem możliwości modelu w rodzimej mowie. "Rozumienie" oceniam na dobre. Mimo tego, że udziwniałem wypowiedź pisząc z archaizmami, zrozumiał przekaz. Z paroma zdaniami staropolszczyzny w miarę sobie radził. Kiepsko szło mu nadanie wypowiedzi stylu "staropolskiego". Nie zna gwary więziennej. Zna trochę slangu, umie rapować, ale nie rymować. Zabawne, że po każdej sromotnej porażce aplikacja z uporem maniaka przekonywała mnie, że rozumie swoje błędy i tym razem już dostarczy rymujący się tekst. Niestety, słowa takie jak "malarz" i "farba" za Chiny nie chcą się rymować. Hiphopowcy - rymów poszukajcie gdzie indziej.
Cechy szczególne
Jedną z wyjątkowych cech tego rozwiązania są konwersacyjne interakcje. Zadając kolejne pytania i polecenia możemy nakierowywać "asystenta" na właściwe tory. Można dokładać kolejne oczekiwania dotyczące ostatecznej formy tekstu, a aplikacja sprawnie radzi sobie z obrabianiem tekstu.
Możemy określić personę jaką odgrywać ma ChatGPT, np.: "pisz jak Donald Trump" albo "krytykujący nauczyciel".
Przykład strony dającej gotowe przepisy na to, by zadać pytanie tak, by osiągnąć wyjątkowy efekt:
https://github.com/f/awesome-chatgpt-prompts
Określenia trafne i nieco mniej
ChatGPT jest nowym tworem i każdy może korzystać z niego w indywidualny sposób. Podejść może być wiele. Usłyszałem wiele trafnych określeń, które dopełniają obrazu tego zjawiska.
- Statystyczna Papuga - do pewnego stopnia widać podobieństwo do funkcji autouzupełniania, jaką znamy z telefonów komórkowych (to "Autouzupełnianie na sterydach"). Aplikacja ma dostęp do dużych pokładów informacji, na bazie których wnioskuje co do statystycznie najbardziej prawdopodobnej odpowiedzi.
- Agregator Treści - model nie jest w stanie tworzyć oryginalnych treści, ale potrafi dostarczać zgrabnych podsumowań i zestawień informacji. Zamiast zestawu linków na Google, mamy mini esej z odpowiedzią.
- Mitoman, Mistrz Lania Wody, Kapitan Ogólnik - potrafi popłynąć i serwować nieprawdziwe stwierdzenia, które nie najgorzej się czyta. Każdą odpowiedź zaczyna od "Oczywiście, jakże banalne pytanie drogi Watsonie", po czym dodaje okrągłe zdania wypełnione dużą ilością waty. Pisze sporo komunałów i mętnych stwierdzeń, zwłaszcza, jeśli pytanie nie jest techniczne.
- Lingwista - wyposażony w giętki język, z prawdomównością bywa różnie. Potrafi przyznać się do niewiedzy, ale też czasem stawia sprawy kategorycznie, choć sprawa jest mocno wątpliwa.