Performance Analysis of Large Language Models on Summarization, Code Generation, and Conversational AI

Show simple item record

dc.contributor Darbari, Mayank
dc.contributor Manresa Yee, Cristina Suemay
dc.contributor.author Ul Haq, Ikram
dc.date 2024
dc.date.accessioned 2025-03-05T11:01:07Z
dc.date.issued 2024-09-18
dc.identifier.uri http://hdl.handle.net/11201/169155
dc.description.abstract [spa] El rápido avance en los modelos de lenguaje grandes (LLM, por sus siglas en inglés: Large Language Models) ha mejorado significativamente sus capacidades en diversas tareas de procesamiento del lenguaje natural, incluyendo la creación de resúmenes, la generación de código y la IA conversacional. Este estudio lleva a cabo una evaluación integral del rendimiento en estas tres tareas con LLM de última generación - Llama3, Mistral y Gemma - utilizando conjuntos de datos disponibles públicamente como CNN Daily Mail, CoNaLa y Chatbot Arena. El marco de evaluación emplea métricas tanto léxicas como semánticas, incluidas ROUGE, METEOR, BLEU y BERTScore, para evaluar los resultados de los modelos frente a datos reales. Los resultados indican que, si bien los LLM demuestran un sólido rendimiento en la generación de textos similares a los humanos, aún persisten desafíos como lograr una alta precisión y consistencia léxica en la generación de código y en contextos conversacionales complejos. Este estudio proporciona información valiosa sobre las fortalezas y limitaciones actuales de los LLM, contribuyendo al discurso actual sobre su potencial y la necesidad de metodologías de evaluación más refinadas es
dc.description.abstract [eng] The rapid advancements in Large Language Models (LLMs) have significantly enhanced their capabilities in various Natural Language Processing (NLP) tasks, including summarization, code generation, and conversational AI. This study conducts a comprehensive performance evaluation of stateof-the-art LLMs, including Llama3, Mistral, and Gemma, across these tasks using publicly available datasets such as CNN Daily Mail, CoNaLa, and Chatbot Arena. The evaluation framework employs both lexical and semantic metrics, including ROUGE, METEOR, BLEU, and BERTScore, to assess the models’ outputs against ground truth data. The results highlight that while LLMs demonstrate strong performance in generating human-like text, challenges persist, particularly in achieving high accuracy and lexical consistency in code generation and complex conversational contexts. This study provides valuable insights into the current strengths and limitations of LLMs, contributing to the ongoing discourse on their potential and the need for more refined evaluation methodologies en
dc.format application/pdf en
dc.language.iso eng ca
dc.publisher Universitat de les Illes Balears
dc.rights all rights reserved
dc.subject 004 - Informàtica ca
dc.subject.other LLMs ca
dc.subject.other GenerativaAI ca
dc.subject.other Summarization ca
dc.subject.other Code Generation ca
dc.subject.other Conversational AI ca
dc.subject.other Transformers ca
dc.title Performance Analysis of Large Language Models on Summarization, Code Generation, and Conversational AI en
dc.type info:eu-repo/semantics/masterThesis ca
dc.type info:eu-repo/semantics/publishedVersion
dc.date.updated 2025-01-22T10:43:12Z
dc.date.embargoEndDate info:eu-repo/date/embargoEnd/2050-01-01
dc.embargo 2100-01-01
dc.rights.accessRights info:eu-repo/semantics/embargoedAccess
dc.rights.accessRights info:eu-repo/semantics/closedAccess


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search Repository


Advanced Search

Browse

My Account

Statistics