Complexity in computational sociolinguistics: exploring the interplay between geography, culture and the social fabric

Louf, Thomas

Home
→
Producció científica
→
Tesis doctorals
→
View Item

Complexity in computational sociolinguistics: exploring the interplay between geography, culture and the social fabric

Louf, Thomas

URI: http://hdl.handle.net/11201/161675

Date: 2023

Submission date: 2023-09-18

Abstract:

[eng] Language has a crucial role in and is greatly influenced by widely different spheres of society, from simple interpersonal communication to the economy or culture. This is what makes sociolinguistics, the study of the interactions of language and society, a complex but decidedly worthwhile endeavour. As a wealth of linguistic data can be retrieved from online social media, the development of new theoretical models aimed at uncovering mechanisms underlying sociolinguistic phenomena can be better guided and tested than ever before. In this thesis, we harness this great potential, and take an interdisciplinary approach to sociolinguistics that is inspired by methods of complex systems and data science. First, we study languages as coherent units that compete with others for speakers, in order to try to identify the drivers of language extinction and how coexistence of multiple languages in an interconnected society might come to be. Crucially, we take into account the spatial embedding of languages, and first observe it using Twitter data. We find that two languages can coexist with completely separated communities but also with communities mixed in space, featuring a large population of bilinguals. We capture this diversity of coexistence states by introducing a model that considers a potential cultural attachment for one language that may counteract a globally lower prestige, as well as the relative ease to learn a language knowing the other. Both simulations’ and analytic results are used to support our claims. We then focus on variation within a language to point out a potential dependence of standard language use with socio-economic status. Focusing on England, we find that there is a slight tendency for English Twitter users to make more grammatical mistakes the lower their income is. This tendency is however very different from one metropolitan area to another, and actually, it seems to be weaker the more socio-economic classes mix together. We propose a model that accounts for potentially different mixing patterns and preferences for a language variety. It reproduces this effect we observed in a simple setting that enables us to analyse it mathematically, but also in more realistic agent-based simulations. We thus find that increased social mixing is crucial to tackle potential social and economic segregation reflected in this linguistic variation. Lastly, we leverage the interrelationship between language and culture in a case study of the United States to define its major cultural regions. From geotagged tweets written in English, we find the usage hotspots of words found in them to then compute the principal dimensions of lexical variation. With these, we are able to infer coherent ix cultural regions and the topics that define them. This quantitative, automatic analysis thus provides robust answers to the debate around cultural geography, which has been historically marked by differing definitions of relevant cultural factors. The strength of the results we obtained across quite diverse areas of sociolinguistics is a mirror of the strength of the approach we took throughout our work, that relies on computational tools, large datasets and simple mathematical models. It calls for further developments of this kind, which are most probably only in their infancy.

[fra] Le langage a un rôle central dans des sphères très diverses de la société, qui vont de la simple communication entre individus à l’économie ou la culture, et qui contribuent ainsi chacune à le modeler en retour. C’est cela qui rend la sociolinguistique, c’est-à-dire l’étude des interactions entre le langage et la société, une entreprise à la fois complexe et incontestablement digne d’intérêt. Alors qu’une quantité inédite de données peuvent être extraites des réseaux sociaux, le développement de nouveaux modèles théoriques qui visent à identifier les mécanismes sous-jacents aux phénomènes sociolinguistiques peut être mieux guidé et mis à l’épreuve que jamais auparavant. Dans cette thèse, nous tirons parti de ce potentiel, et prenons une approche interdisciplinaire à la sociolinguistique inspirée par des méthodes de science des systèmes complexes et de la science des données. En premier lieu, nous étudions les langues comme des unités cohérentes qui sont en compétition les unes avec les autres afin d’essayer d’identifier les principaux facteurs qui mènent à la disparition d’une langue, et ce qui pourrait rendre possible la coexistence de multiples langues dans une société interconnectée. Un aspect crucial que nous prenons en compte est l’ancrage géographique des langues, que nous observons à travers des données de Twitter. Ces observations nous montrent que deux langues peuvent coexister à travers deux communautés complètement séparées, mais aussi lorsque ces dernières cohabitent, avec une population considérable de bilingues. Afin de saisir cette diversité d’états de coexistence, nous introduisons un modèle qui considère la possibilité d’un attachement culturel à l’une des langues qui pourrait contrebalancer un prestige globalement inférieur, ainsi que la facilité relative d’apprentissage d’une langue sachant parler l’autre. Nos résultats découlant à la fois d’analyse mathématique et de simulations numériques viennent appuyer nos thèses. Par la suite, nous nous focalisons sur les variations intrinsèques à une langue afin d’identifier une potentielle dépendance entre le respect des normes standard d’une langue et le status socio-économique des individus. Nous concentrons notre analyse sur l’Angleterre et identifions une légère tendance pour les utilisateurs Anglais de Twitter de commettre plus d’erreurs grammaticales s’ils ont un revenu plus bas. Cette tendance est en revanche très différente d’une métropole à l’autre, et, de fait, notre analyse indique qu’elle soit plus faible quand différentes classes sociales se mélangent plus. Nous proposons alors un modèle qui prend en compte un plus ou moins grand brassage social et de potentielles préférences de certaines classes pour une variété linguistique. Il reproduit l’effet que nous avons observé à xi la fois dans des configurations très simples qui nous permettent de l’analyser mathématiquement, mais également dans des simulations plus réalistes à base d’agents. Nos résultats indiquent donc que plus de brassage social est crucial si l’on souhaite contrecarrer de potentielles ségrégations économiques et sociales qui se reflètent dans cette variation linguistique. La dernière étude que nous présentons utilise le caractère indissociable de la relation entre langage et culture dans une étude de cas des États-Unis afin de définir ses principales régions culturelles. À partir de tweets géolocalisés écrits en anglais, nous cartographions les zones où certains mots sont utilisés plus ou moins que de coutume pour ensuite déterminer les principales dimensions de variation lexicale dans le pays. Nous pouvons alors déduire de celles-ci les principales régions culturelles et les sujets qui les définissent. Cette approche quantitative et automatique fournit ainsi des réponses robustes au débat qui entoure la géographie culturelle, historiquement marquée par des manières différentes de définir les dimensions culturelles pertinentes. La force des résultats que nous avons obtenus à travers des domaines assez variés de la sociolinguistique n’est que le miroir des forces de l’approche que nous avons adoptée tout au long de cette thèse, qui repose sur des outils computationnels, de grands ensembles de données et des modèles mathématiques simples. Cela invite donc à de plus amples études de ce type, qui ne sont probablement qu’à leur genèse.

[spa] La lengua desempeña un papel crucial en diferentes aspectos de la sociedad, desde la simple comunicación interpersonal a la economía y la cultura, y se ve además muy influida por estos. Eso es lo que hace de la sociolingüística, que consiste en el estudio de las interacciones entre el lenguaje y la sociedad, una empresa muy compleja, pero que vale decididamente la pena llevar a cabo. Puesto que se pueden extraer muchísimos datos lingüísticos de las redes sociales, el desarrollo de nuevos modelos teóricos que intentan esclarecer los mecanismos detrás de los fenómenos sociolingüísticos puede estar mejor guiado y probado que nunca. En esta tesis, aprovechando este gran potencial tomamos un enfoque interdisciplinar inspirado en métodos del campo de los sistemas complejos y de la ciencia de datos. En primer lugar, estudiamos las lenguas como unidades coherentes que compiten con otras por hablantes, con el fin de identificar las causas de la desaparición de las lenguas o de una posible coexistencia de varias lenguas en una sociedad interconectada. Crucialmente, tenemos en cuenta la componente espacial de las lenguas, y la observamos por primera vez utilizando datos de Twitter. Descubrimos que dos lenguas pueden coexistir con comunidades completamente separadas, pero también con comunidades mezcladas en el espacio entre sí y con una gran población de bilingües. Describimos esta diversidad de estados de coexistencia introduciendo un modelo que tiene en cuenta un posible apego cultural por una lengua que puede contrarrestar un prestigio globalmente inferior, así como la relativa facilidad para aprender una lengua conociendo la otra. Tanto las simulaciones como los resultados analíticos se utilizan para justificar nuestras afirmaciones. A continuación, nos centramos en la variación dentro de una lengua para señalar una posible dependencia de uso de la lengua estándar con el estatus socioeconómico. Centrándonos en Inglaterra, observamos que hay una ligera tendencia a que los usuarios ingleses de Twitter cometan más errores gramaticales cuanto más bajos son sus ingresos. Sin embargo, esta tendencia es muy diferente entre un área metropolitana y otra, y, de hecho, parece ser más débil cuanto más se mezclan las clases socioeconómicas. Proponemos entonces un modelo que tiene en cuenta las posibles diferencias en los patrones de mezcla y la preferencia por una variedad lingüística. El modelo reproduce los resultados observados en un entorno sencillo, lo que nos permite analizarlo matemáticamente, pero también en simulaciones más realistas basadas en agentes. Así pues, consideramos que el aumento de la mezcla social es crucial para hacer frente a la posible segregación social y económica reflejada en este fenómeno lingüístico. xiii Por último, aprovechamos la interrelación entre lengua y cultura en un estudio de caso de Estados Unidos para definir sus principales regiones culturales. A partir de tuits geoetiquetados escritos en inglés, hallamos las zonas de más uso de las palabras encontradas para luego calcular las principales dimensiones de la variación léxica. Con ellas, podemos inferir regiones culturales coherentes y los temas de discusión que las definen. Este análisis cuantitativo y automático aporta respuestas fundadas al debate en torno a la geografía cultural, que se ha caracterizado históricamente por las distintas definiciones de los factores culturales relevantes. La importancia de los resultados que hemos obtenido en ámbitos bastante diversos de la sociolingüística refleja la solidez del enfoque que hemos adoptado a lo largo de nuestro trabajo, basado en herramientas informáticas, grandes conjuntos de datos y modelos matemáticos sencillos. Ello exige nuevos avances de este tipo, que con toda probabilidad todavía se encuentran en sus inicios.

[cat] La llengua té un paper crucial en diferents aspectes de la societat, com a la simple comunicació interpersonal i l’economia i la cultura, i es veu a més molt influïda per aquests. Això és el que fa de la sociolingüística, l’estudi de les interaccions del llenguatge i la societat, un esforç complex però decididament valuós. Com que es pot recuperar una gran quantitat de dades lingüístiques de les xarxes socials en línia, el desenvolupament de nous models teòrics destinats a descobrir mecanismes subjacents als fenòmens sociolingüístics pot ser millor guiat i provat que mai. En aquesta tesi, aprofitem aquest gran potencial i adoptem un enfocament interdisciplinari de la sociolingüística que s’inspira en mètodes de sistemes complexos i ciència de dades. En primer lloc, estudiem les llengües com a unitats coherents que competeixen amb altres per parlants, per tal d’intentar identificar les causes de la desaparició d’una llengua i com podrien coexistir a ser la coexistència de diverses llengües en una societat interconnectada. Crucialment, tenim en compte la component espacial de les llengües, i per primera vegada l’observem utilitzant dades de Twitter. Ens trobem que dues llengües poden coexistir amb comunitats completament separades però també amb comunitats amb mescla en l’espai, amb una gran població de bilingües. Descrivim aquesta diversitat d’estats de coexistència introduint un model que considera una possible preferència cultural per una llengua que pot contrarestar un prestigi globalment inferior, així com la relativa facilitat per aprendre una llengua coneixent l’altra. Tant les simulacions com els resultats analítics s’utilitzen per donar suport a les nostres afirmacions. Després ens centrem en la variació dins d’una llengua per assenyalar una dependència potencial de l’ús estàndard de la llengua amb l’estat socioeconòmic. Centrant-nos en Anglaterra, trobem que hi ha una lleugera tendència dels usuaris anglesos de Twitter a cometre més errors gramaticals com més baixos siguin els seus ingressos. No obstant això, aquesta tendència és molt diferent d’una àrea metropolitana a una altra, i en realitat, sembla ser més feble quan les classes socioeconòmiques es mesclen més entre si. Proposem un model que tingui en compte patrons de mescla i preferències potencialment diferents per a una varietat lingüística. El model reprodueix aquest efecte que hem observat empíricament, en un entorn senzill que ens permet analitzar-lo matemàticament, però també en simulacions més realistes basades en agents. Finalment, aprofitem la interrelació entre llengua i cultura en un estudi de cas dels Estats Units per a definir les seves principals regions culturals. A partir de tuits geoetiquetats escrits en anglès, trobem xv les regions de més ús de les paraules que s’hi troben per després calcular les principals dimensions de la variació lèxica. Amb aquests, podem inferir regions culturals coherents i els temes que les defineixen. Aquesta anàlisi quantitativa i automàtica, per tant, proporciona respostes sòlides al debat al voltant de la geografia cultural, que ha estat històricament marcada per diferents definicions de factors culturals rellevants. La rellevància dels resultats obtinguts en diverses àrees de sociolingüística reflecteix la solidesa de l’enfocament que vam prendre durant el nostre treball, basat en eines computacionals, grans conjunts de dades i models matemàtics senzills. Això exigeix més desenvolupaments d’aquest tipus, que molt probablement només estan en els seus inicis.

Show full item record