[eng] Language has a crucial role in and is greatly influenced by widely
different spheres of society, from simple interpersonal communication
to the economy or culture. This is what makes sociolinguistics, the
study of the interactions of language and society, a complex but
decidedly worthwhile endeavour. As a wealth of linguistic data can be
retrieved from online social media, the development of new theoretical
models aimed at uncovering mechanisms underlying sociolinguistic
phenomena can be better guided and tested than ever before. In this
thesis, we harness this great potential, and take an interdisciplinary
approach to sociolinguistics that is inspired by methods of complex
systems and data science.
First, we study languages as coherent units that compete with others
for speakers, in order to try to identify the drivers of language extinction
and how coexistence of multiple languages in an interconnected
society might come to be. Crucially, we take into account the spatial
embedding of languages, and first observe it using Twitter data. We
find that two languages can coexist with completely separated communities
but also with communities mixed in space, featuring a large
population of bilinguals. We capture this diversity of coexistence states
by introducing a model that considers a potential cultural attachment
for one language that may counteract a globally lower prestige, as
well as the relative ease to learn a language knowing the other. Both
simulations’ and analytic results are used to support our claims.
We then focus on variation within a language to point out a potential
dependence of standard language use with socio-economic status.
Focusing on England, we find that there is a slight tendency for
English Twitter users to make more grammatical mistakes the lower
their income is. This tendency is however very different from one
metropolitan area to another, and actually, it seems to be weaker the
more socio-economic classes mix together. We propose a model that
accounts for potentially different mixing patterns and preferences for
a language variety. It reproduces this effect we observed in a simple
setting that enables us to analyse it mathematically, but also in more
realistic agent-based simulations. We thus find that increased social
mixing is crucial to tackle potential social and economic segregation
reflected in this linguistic variation.
Lastly, we leverage the interrelationship between language and culture
in a case study of the United States to define its major cultural
regions. From geotagged tweets written in English, we find the usage
hotspots of words found in them to then compute the principal dimensions
of lexical variation. With these, we are able to infer coherent
ix
cultural regions and the topics that define them. This quantitative,
automatic analysis thus provides robust answers to the debate around
cultural geography, which has been historically marked by differing
definitions of relevant cultural factors.
The strength of the results we obtained across quite diverse areas
of sociolinguistics is a mirror of the strength of the approach we took
throughout our work, that relies on computational tools, large datasets
and simple mathematical models. It calls for further developments of
this kind, which are most probably only in their infancy.
[fra] Le langage a un rôle central dans des sphères très diverses de la société,
qui vont de la simple communication entre individus à l’économie ou
la culture, et qui contribuent ainsi chacune à le modeler en retour. C’est
cela qui rend la sociolinguistique, c’est-à-dire l’étude des interactions
entre le langage et la société, une entreprise à la fois complexe et
incontestablement digne d’intérêt. Alors qu’une quantité inédite de
données peuvent être extraites des réseaux sociaux, le développement
de nouveaux modèles théoriques qui visent à identifier les mécanismes
sous-jacents aux phénomènes sociolinguistiques peut être mieux guidé
et mis à l’épreuve que jamais auparavant. Dans cette thèse, nous tirons
parti de ce potentiel, et prenons une approche interdisciplinaire à la
sociolinguistique inspirée par des méthodes de science des systèmes
complexes et de la science des données.
En premier lieu, nous étudions les langues comme des unités cohérentes
qui sont en compétition les unes avec les autres afin d’essayer
d’identifier les principaux facteurs qui mènent à la disparition d’une
langue, et ce qui pourrait rendre possible la coexistence de multiples
langues dans une société interconnectée. Un aspect crucial que nous
prenons en compte est l’ancrage géographique des langues, que nous
observons à travers des données de Twitter. Ces observations nous
montrent que deux langues peuvent coexister à travers deux communautés
complètement séparées, mais aussi lorsque ces dernières
cohabitent, avec une population considérable de bilingues. Afin de
saisir cette diversité d’états de coexistence, nous introduisons un modèle
qui considère la possibilité d’un attachement culturel à l’une des
langues qui pourrait contrebalancer un prestige globalement inférieur,
ainsi que la facilité relative d’apprentissage d’une langue sachant parler
l’autre. Nos résultats découlant à la fois d’analyse mathématique
et de simulations numériques viennent appuyer nos thèses.
Par la suite, nous nous focalisons sur les variations intrinsèques à
une langue afin d’identifier une potentielle dépendance entre le respect
des normes standard d’une langue et le status socio-économique
des individus. Nous concentrons notre analyse sur l’Angleterre et
identifions une légère tendance pour les utilisateurs Anglais de Twitter
de commettre plus d’erreurs grammaticales s’ils ont un revenu
plus bas. Cette tendance est en revanche très différente d’une métropole
à l’autre, et, de fait, notre analyse indique qu’elle soit plus faible
quand différentes classes sociales se mélangent plus. Nous proposons
alors un modèle qui prend en compte un plus ou moins grand brassage
social et de potentielles préférences de certaines classes pour
une variété linguistique. Il reproduit l’effet que nous avons observé à
xi
la fois dans des configurations très simples qui nous permettent de
l’analyser mathématiquement, mais également dans des simulations
plus réalistes à base d’agents. Nos résultats indiquent donc que plus
de brassage social est crucial si l’on souhaite contrecarrer de potentielles
ségrégations économiques et sociales qui se reflètent dans cette
variation linguistique.
La dernière étude que nous présentons utilise le caractère indissociable
de la relation entre langage et culture dans une étude de cas des
États-Unis afin de définir ses principales régions culturelles. À partir
de tweets géolocalisés écrits en anglais, nous cartographions les zones
où certains mots sont utilisés plus ou moins que de coutume pour
ensuite déterminer les principales dimensions de variation lexicale
dans le pays. Nous pouvons alors déduire de celles-ci les principales
régions culturelles et les sujets qui les définissent. Cette approche
quantitative et automatique fournit ainsi des réponses robustes au
débat qui entoure la géographie culturelle, historiquement marquée
par des manières différentes de définir les dimensions culturelles
pertinentes.
La force des résultats que nous avons obtenus à travers des domaines
assez variés de la sociolinguistique n’est que le miroir des forces
de l’approche que nous avons adoptée tout au long de cette thèse,
qui repose sur des outils computationnels, de grands ensembles de
données et des modèles mathématiques simples. Cela invite donc à
de plus amples études de ce type, qui ne sont probablement qu’à leur
genèse.
[spa] La lengua desempeña un papel crucial en diferentes aspectos de la
sociedad, desde la simple comunicación interpersonal a la economía y
la cultura, y se ve además muy influida por estos. Eso es lo que hace
de la sociolingüística, que consiste en el estudio de las interacciones
entre el lenguaje y la sociedad, una empresa muy compleja, pero que
vale decididamente la pena llevar a cabo. Puesto que se pueden extraer
muchísimos datos lingüísticos de las redes sociales, el desarrollo
de nuevos modelos teóricos que intentan esclarecer los mecanismos
detrás de los fenómenos sociolingüísticos puede estar mejor guiado y
probado que nunca. En esta tesis, aprovechando este gran potencial
tomamos un enfoque interdisciplinar inspirado en métodos del campo
de los sistemas complejos y de la ciencia de datos.
En primer lugar, estudiamos las lenguas como unidades coherentes
que compiten con otras por hablantes, con el fin de identificar las causas
de la desaparición de las lenguas o de una posible coexistencia de
varias lenguas en una sociedad interconectada. Crucialmente, tenemos
en cuenta la componente espacial de las lenguas, y la observamos por
primera vez utilizando datos de Twitter. Descubrimos que dos lenguas
pueden coexistir con comunidades completamente separadas, pero
también con comunidades mezcladas en el espacio entre sí y con una
gran población de bilingües. Describimos esta diversidad de estados
de coexistencia introduciendo un modelo que tiene en cuenta un posible
apego cultural por una lengua que puede contrarrestar un prestigio
globalmente inferior, así como la relativa facilidad para aprender una
lengua conociendo la otra. Tanto las simulaciones como los resultados
analíticos se utilizan para justificar nuestras afirmaciones.
A continuación, nos centramos en la variación dentro de una lengua
para señalar una posible dependencia de uso de la lengua estándar
con el estatus socioeconómico. Centrándonos en Inglaterra, observamos
que hay una ligera tendencia a que los usuarios ingleses de
Twitter cometan más errores gramaticales cuanto más bajos son sus
ingresos. Sin embargo, esta tendencia es muy diferente entre un área
metropolitana y otra, y, de hecho, parece ser más débil cuanto más se
mezclan las clases socioeconómicas. Proponemos entonces un modelo
que tiene en cuenta las posibles diferencias en los patrones de mezcla
y la preferencia por una variedad lingüística. El modelo reproduce
los resultados observados en un entorno sencillo, lo que nos permite
analizarlo matemáticamente, pero también en simulaciones más realistas
basadas en agentes. Así pues, consideramos que el aumento de
la mezcla social es crucial para hacer frente a la posible segregación
social y económica reflejada en este fenómeno lingüístico.
xiii
Por último, aprovechamos la interrelación entre lengua y cultura
en un estudio de caso de Estados Unidos para definir sus principales
regiones culturales. A partir de tuits geoetiquetados escritos en inglés,
hallamos las zonas de más uso de las palabras encontradas para
luego calcular las principales dimensiones de la variación léxica. Con
ellas, podemos inferir regiones culturales coherentes y los temas de
discusión que las definen. Este análisis cuantitativo y automático
aporta respuestas fundadas al debate en torno a la geografía cultural,
que se ha caracterizado históricamente por las distintas definiciones
de los factores culturales relevantes.
La importancia de los resultados que hemos obtenido en ámbitos
bastante diversos de la sociolingüística refleja la solidez del enfoque
que hemos adoptado a lo largo de nuestro trabajo, basado en
herramientas informáticas, grandes conjuntos de datos y modelos
matemáticos sencillos. Ello exige nuevos avances de este tipo, que con
toda probabilidad todavía se encuentran en sus inicios.
[cat] La llengua té un paper crucial en diferents aspectes de la societat, com
a la simple comunicació interpersonal i l’economia i la cultura, i es veu
a més molt influïda per aquests. Això és el que fa de la sociolingüística,
l’estudi de les interaccions del llenguatge i la societat, un esforç
complex però decididament valuós. Com que es pot recuperar una
gran quantitat de dades lingüístiques de les xarxes socials en línia, el
desenvolupament de nous models teòrics destinats a descobrir mecanismes
subjacents als fenòmens sociolingüístics pot ser millor guiat
i provat que mai. En aquesta tesi, aprofitem aquest gran potencial i
adoptem un enfocament interdisciplinari de la sociolingüística que
s’inspira en mètodes de sistemes complexos i ciència de dades.
En primer lloc, estudiem les llengües com a unitats coherents que
competeixen amb altres per parlants, per tal d’intentar identificar les
causes de la desaparició d’una llengua i com podrien coexistir a ser
la coexistència de diverses llengües en una societat interconnectada.
Crucialment, tenim en compte la component espacial de les llengües, i
per primera vegada l’observem utilitzant dades de Twitter. Ens trobem
que dues llengües poden coexistir amb comunitats completament separades
però també amb comunitats amb mescla en l’espai, amb una
gran població de bilingües. Descrivim aquesta diversitat d’estats de coexistència
introduint un model que considera una possible preferència
cultural per una llengua que pot contrarestar un prestigi globalment
inferior, així com la relativa facilitat per aprendre una llengua coneixent
l’altra. Tant les simulacions com els resultats analítics s’utilitzen
per donar suport a les nostres afirmacions.
Després ens centrem en la variació dins d’una llengua per assenyalar
una dependència potencial de l’ús estàndard de la llengua amb
l’estat socioeconòmic. Centrant-nos en Anglaterra, trobem que hi ha
una lleugera tendència dels usuaris anglesos de Twitter a cometre
més errors gramaticals com més baixos siguin els seus ingressos. No
obstant això, aquesta tendència és molt diferent d’una àrea metropolitana
a una altra, i en realitat, sembla ser més feble quan les classes
socioeconòmiques es mesclen més entre si. Proposem un model que
tingui en compte patrons de mescla i preferències potencialment diferents
per a una varietat lingüística. El model reprodueix aquest efecte
que hem observat empíricament, en un entorn senzill que ens permet
analitzar-lo matemàticament, però també en simulacions més realistes
basades en agents.
Finalment, aprofitem la interrelació entre llengua i cultura en un
estudi de cas dels Estats Units per a definir les seves principals regions
culturals. A partir de tuits geoetiquetats escrits en anglès, trobem
xv
les regions de més ús de les paraules que s’hi troben per després
calcular les principals dimensions de la variació lèxica. Amb aquests,
podem inferir regions culturals coherents i els temes que les defineixen.
Aquesta anàlisi quantitativa i automàtica, per tant, proporciona respostes
sòlides al debat al voltant de la geografia cultural, que ha estat
històricament marcada per diferents definicions de factors culturals
rellevants.
La rellevància dels resultats obtinguts en diverses àrees de sociolingüística
reflecteix la solidesa de l’enfocament que vam prendre durant
el nostre treball, basat en eines computacionals, grans conjunts de dades
i models matemàtics senzills. Això exigeix més desenvolupaments
d’aquest tipus, que molt probablement només estan en els seus inicis.