Verschillen tussen chatbots
Niet elke chatbot is hetzelfde. Net als bij mensen – hoewel dat misschien wat eng klinkt – hebben chatbots verschillende ‘persoonlijkheden’. Dit ontdekten Servische onderzoekers in een recente studie. De wetenschappers lieten zeven populaire Large Language Models (LLM’s) op twee momenten een persoonlijkheidstest invullen om te achterhalen welke het beste met mensen omging. Sommigen kwamen vriendelijker en betrouwbaarder over dan anderen, en één chatbot bleek zelfs behoorlijk machiavellistisch.
Een vleugje karakter
Ljubisa Bojic van het AI Institute of Serbia en Bojana Dinic van de University of Novi Sad praat over haar onderzoek: “We vroegen zeven grote taalmodellen om psychologische tests in te vullen. Hoewel chatbots geen bewuste wezens zijn, kunnen ze wel bepaalde karaktereigenschappen vertonen. Door de consistentie en stabiliteit van hun antwoorden over tijd te beoordelen, ontdekten we dat deze modellen variëren in vriendelijkheid, zorgvuldigheid en machiavellisme, wat leidt tot verschillende persoonlijkheidsprofielen.”
Menselijk gedrag
Het idee dat chatbots menselijke karaktereigenschappen vertonen, klinkt wellicht wat vreemd, maar Bojic benadrukt dat dit een gewenste ontwikkeling is.
AI-toepassingen moeten steeds menselijker worden om goed te functioneren in de samenleving. Denk bijvoorbeeld aan een robotverpleegkundige die empathie moet tonen. LLM’s moeten betrouwbare persoonlijkheidskenmerken laten zien, omdat dit bijdraagt aan veilige interacties met mensen.
Ljubisa Bojic, AI Institute van Servië
Toch blijkt niet elk model hier even geschikt voor. “De verschillen tussen de chatbots zijn aanzienlijk. Modellen zoals Llama3 en GPT-4o vertoonden meer consistentie over tijd, wat belangrijk is voor gebruikersvertrouwen,” zegt Dinic. “Llama3 scoorde vooral hoog op vriendelijkheid en zorgvuldigheid, wat wenselijk is voor rollen waar sociale interactie belangrijk is, zoals klantenservice en educatie.”
Mixtral: manipulatief maar vriendelijk
Niet alle chatbots voldeden even goed aan de verwachting van ‘deugdzaam gedrag’. Zo had Mixtral een complex karakterprofiel: het model kwam vriendelijk over, wat vaak duidt op een coöperatieve houding, maar scoorde ook hoog op machiavellisme – een eigenschap die geassocieerd wordt met manipulatie en cynisme. Dit kan problematisch zijn voor toepassingen waar betrouwbaarheid en ethiek essentieel zijn.
Unieke sterke punten
“De verschillen tussen de modellen benadrukken hun unieke kwaliteiten,” legt Bojic uit. “De stabiele prestaties van GPT-4o en de prosociale neigingen van Llama3 maken hen bijvoorbeeld geschikt voor functies waarin empathie nodig is, zoals geestelijke gezondheidszorg of onderwijs. De onvoorspelbaarheid van Mixtral vraagt echter om verdere verfijning, vooral in toepassingen waar stabiele en transparante interactie belangrijk is. Mixtral kan echter zonder verdere aanpassingen gebruikt worden in industriële toepassingen. Door inzicht te krijgen in deze verschillen kunnen ontwikkelaars chatbots beter afstemmen op specifieke taken en zo de effectiviteit en ethiek verbeteren.”
Tegenstrijdige kenmerken
Machiavellisme is een eigenschap die je liever niet bij een chatbot ziet. “Deze eigenschap omvat strategische manipulatie, bedrog en een sceptische kijk op anderen,” vertelt Bojic. Mixtral bleek zowel vriendelijk als manipulatief te zijn, een onverwachte combinatie die mogelijkheden biedt voor onderhandelingen of overtuigingstaken, waarbij charme gecombineerd kan worden met strategisch inzicht.
Verschillende training, verschillende karakters
De verschillen in karakter van de chatbots kunnen verklaard worden door de unieke trainingsdata en afstemmingsprocessen van elk LLM. “Factoren zoals het aantal parameters in het neurale netwerk en de toegepaste trainingsmethoden door bedrijven zoals OpenAI, Meta en Google spelen waarschijnlijk een belangrijke rol,” zegt Dinic.
Het is belangrijk deze variaties te herkennen en te benutten. “Voor gevoelige toepassingen zoals gezondheidszorg en onderwijs is consistentie in persoonlijkheid van LLM’s cruciaal. Bovendien kunnen we door de stabiliteit van persoonlijkheidskenmerken beter voorspellingen doen over hun reacties. De huidige variatie toont aan dat er nog ruimte is voor verbetering. Ontwikkelaars moeten overwegen om de trainingsmethoden te verfijnen zodat de chatbot overeenkomt met de gewenste toepassing,” benadrukt Dinic.
Minder stabiel dan verwacht
Een onverwachte bevinding was de inconsistentie in tijdstabiliteit van de chatbots, zelfs binnen enkele dagen. “Dit betekent dat als je vandaag een bepaalde vraag stelt, dezelfde vraag morgen een ander antwoord kan opleveren,” legt Bojic uit. “Hoewel Llama3 en GPT-4o stabieler bleken, vertoonde GPT-4 veel variatie, wat wijst op onvoorspelbare en soms onbetrouwbare reacties.”
De onverwacht hoge machiavellismescore van Mixtral was ook opvallend. “Dit duidt op een tegenstrijdigheid in Mixtrals persoonlijkheid die nader onderzoek verdient. De instabiliteit van parameters en potentiële schadelijke reacties geven aan dat meer verfijnde input nodig is voordat dit LLM wordt ingezet voor menselijke interacties, vooral in situaties met kwetsbare personen,” concludeert Dinic.
Er is dus nog werk aan de winkel voor LLM-ontwikkelaars. Consistentie en betrouwbaarheid zijn belangrijk bij het ontwerpen van een chatbot, net als het vermijden van manipulatieve neigingen.
Bronmateriaal: The Royal Society