Performance Analysis of Large Language Models on Summarization, Code Generation, and Conversational AI

Ul Haq, Ikram

dc.contributor	Darbari, Mayank
dc.contributor	Manresa Yee, Cristina Suemay
dc.contributor.author	Ul Haq, Ikram
dc.date	2024
dc.date.accessioned	2025-03-05T11:01:07Z
dc.date.issued	2024-09-18
dc.identifier.uri	http://hdl.handle.net/11201/169155
dc.description.abstract	[spa] El rápido avance en los modelos de lenguaje grandes (LLM, por sus siglas en inglés: Large Language Models) ha mejorado significativamente sus capacidades en diversas tareas de procesamiento del lenguaje natural, incluyendo la creación de resúmenes, la generación de código y la IA conversacional. Este estudio lleva a cabo una evaluación integral del rendimiento en estas tres tareas con LLM de última generación - Llama3, Mistral y Gemma - utilizando conjuntos de datos disponibles públicamente como CNN Daily Mail, CoNaLa y Chatbot Arena. El marco de evaluación emplea métricas tanto léxicas como semánticas, incluidas ROUGE, METEOR, BLEU y BERTScore, para evaluar los resultados de los modelos frente a datos reales. Los resultados indican que, si bien los LLM demuestran un sólido rendimiento en la generación de textos similares a los humanos, aún persisten desafíos como lograr una alta precisión y consistencia léxica en la generación de código y en contextos conversacionales complejos. Este estudio proporciona información valiosa sobre las fortalezas y limitaciones actuales de los LLM, contribuyendo al discurso actual sobre su potencial y la necesidad de metodologías de evaluación más refinadas	es
dc.description.abstract	[eng] The rapid advancements in Large Language Models (LLMs) have significantly enhanced their capabilities in various Natural Language Processing (NLP) tasks, including summarization, code generation, and conversational AI. This study conducts a comprehensive performance evaluation of stateof-the-art LLMs, including Llama3, Mistral, and Gemma, across these tasks using publicly available datasets such as CNN Daily Mail, CoNaLa, and Chatbot Arena. The evaluation framework employs both lexical and semantic metrics, including ROUGE, METEOR, BLEU, and BERTScore, to assess the models’ outputs against ground truth data. The results highlight that while LLMs demonstrate strong performance in generating human-like text, challenges persist, particularly in achieving high accuracy and lexical consistency in code generation and complex conversational contexts. This study provides valuable insights into the current strengths and limitations of LLMs, contributing to the ongoing discourse on their potential and the need for more refined evaluation methodologies	en
dc.format	application/pdf	en
dc.language.iso	eng	ca
dc.publisher	Universitat de les Illes Balears
dc.rights	all rights reserved
dc.subject	004 - Informàtica	ca
dc.subject.other	LLMs	ca
dc.subject.other	GenerativaAI	ca
dc.subject.other	Summarization	ca
dc.subject.other	Code Generation	ca
dc.subject.other	Conversational AI	ca
dc.subject.other	Transformers	ca
dc.title	Performance Analysis of Large Language Models on Summarization, Code Generation, and Conversational AI	en
dc.type	info:eu-repo/semantics/masterThesis	ca
dc.type	info:eu-repo/semantics/publishedVersion
dc.date.updated	2025-01-22T10:43:12Z
dc.date.embargoEndDate	info:eu-repo/date/embargoEnd/2050-01-01
dc.embargo	2100-01-01
dc.rights.accessRights	info:eu-repo/semantics/embargoedAccess
dc.rights.accessRights	info:eu-repo/semantics/closedAccess