INFTER Compte-rendus

Analysis of geographical information in textual data

[:fr]Présentations autour de l’intervention de Taylor Arnold, 28 avril 2017[:en]Presentations around Taylor Arnold’s intervention, 28 April 2017[:]

[:fr]

Le 28 avril 2017, le CIST a accueilli Taylor Arnold, chercheur à la Yale University au Department of Statistics and Data Science, spécialiste d’analyse statistique en général et d’analyse textuelle en particulier, professeur invité par l’Université Paris Diderot (initiative conjointe LARCA/CLILLAC-ARP).

[frame src=”http://cist.cnrs.fr/wp-content/uploads/2019/08/publi-humanities_data_in_R-arnold.jpg” width=”131 px” lightbox=”on” title=”Couverture de l’ouvrage Humanities dData in R, Springer” align=”right” ]Introduisant la conférence, Claude Grasland a centré son exposé sur l’analyse spatiale des listes de lieux définis de façon qualitative par leurs noms. Il a montré que la reconnaissance des entités spatiales est plus facile dans le cas des états que des villes. Puis il a développé deux exemples d’analyse de listes de lieux. D’une part, l’analyse des représentations mentales que se font les étudiants des pays du Monde (projet FP7 EuroBroadMap, 2009-2013). D’autre part, l’apport de l’analyse des flux RSS de presse internationale à l’analyse des relations géopolitiques de pouvoir entre les pays du Monde (projet ANR Géomédia, 2013-2016).
Spatial analysis of lists of places (pdf de la présentation, in English)

Taylor Arnold a dressé un tableau historique du courant de l’analyse exploratoire des données en identifiant les auteurs majeurs du champs. Puis il a montré le tournant qu’a constitué le développement de S, S+ et enfin R dans l’extension du domaine de l’analyse exploratoire des données. Enfin, il a souligné plus précisément les apports de ce type d’analyse aux humanités numériques à travers l’exemple de l’analyse textuelle et du package CoreNLP.
Geography and text analysis in R (pdf de la présentation, in English)
– Voir également l’ouvrage Humanities Data in R, Springer

La présentation de Marianne Guérois et Malika Madelin était une analyse exploratoire de données Airbnb (collectées par la plateforme InsideAirbnb). Elles ont enrichi par une analyse textuelle le travail fait dans le cadre du projet Grandes métropoles. Cette analyse s’appuie sur trois types d’information associée à une localisation : le titre et la description des locations (par les hôtes) et les commentaires (par les clients). Cette étude répond à plusieurs interrogations. Par exemple, quelles sont les langues utilisées et observe-t-on l’émergence de communautés de langages ? Autre exemple, la localisation des lieux décrite par les hôtes est-elle en cohérence avec la localisation spatiale de l’hébergement et avec les commentaires des clients ? D’un point de vue méthodologique, l’une des principales difficultés résulte dans la reconnaissance des lieux géographiques. Ainsi, à quoi correspond « Eiffel » : s’agit-il d’une localisation à proximité de la tour ou d’une vue sur la tour, depuis la location ? Parmi les résultats, la carte de mots par arrondissements parisiens souligne la hiérarchie des lieux dans la ville, notamment des lieux touristiques. Par ailleurs, ces lieux touristiques peuvent être cités au-delà de leur quartier. La présentation se conclut par une analyse de la localisation des mots mentionnant l’argument de localisation centrale.
How do Airbnb hosts and guests speak about Parisian locations? (pdf de la présentation, in English)

En savoir plus

[list type=”arrow3″]

[/list][:en]

On April 28th, April 2017, the CIST welcomed Taylor Arnold, professor in the Department of Statistics and Data Science at Yale University, invited professor at Université Paris Diderot (LARCA/CLILLAC-ARP joint initiative).

[frame src=”http://cist.cnrs.fr/wp-content/uploads/2019/08/publi-humanities_data_in_R-arnold.jpg” width=”131 px” lightbox=”on” title=”Couverture de l’ouvrage Humanities dData in R, Springer” align=”right” ]Claude Grasland, who introduced the lecture, centred his presentation on the spatial analysis of lists of places defined qualitatively by their names. He underlined that the recognition of spatial entities is easier in the case of states than for cities. Then he developped 2 examples of analysis of lists of places. On the one hand, the analysis of students’ mental representations of the countries of the world (FP7 EuroBroadMap project, 2009-2013). On the other, the contribution of the analysis of RSS flows from international medias to the analysis of geopolitical power relations between the countries of the world (ANR Géomédia project, 2013-2016).
Spatial analysis of lists of places (pdf)

Taylor Arnold drew up a historical picture of the data exploratory analysis stream by identifying the major actors of the field. Then he underlined the turn represented by the development of S, S+ and finally R in the extension of data exploratory analysis. In the end, he demonstrated more precisely the contribution of this type of analysis to digital humanities through the example of textual analysis and CoreNLP package.
Geography and text analysis in R (pdf)
– You can also consult Arnold & Tilton’s book Humanities Data in R, Springer

Marianne Guérois and Malika Madelin’s presentation was an exploratory analysis of Airbnb data (scrapped by the InsideAirbnb platform). They enriched with textual analysis the work done as part of the Grandes métropoles project. Their textual analysis is based on 3 fields which are combined with location information: title and description of homes (by hosts) and comments (by guests). The issues tackled by this study are twofold. Firstly, questions are raised about the languages used in relation with the targeted customers and the emergence of communities of languages. Secondly, the “naming” of home locations (by hosts) and their description (by hosts and guests) questions the possible mismatches between written and spatial locations. From a methodological point of view, one of the main difficulties lies in the recognition of geographic places. For instance, what is “Eiffel”, the proximity to the site or a view towards the tower from an apartment? Among the results, the map of words according to Parisian districts shows the hierarchy of places within the city, for example touristic areas. It also enlightens the fact that touristic areas can be cited outside of their “actual” zone. They ended their presentation questioning the words about central location and how they stretches out in the city, based on xy locations.
How do Airbnb hosts and guests speak about Parisian locations? (pdf)

More…

[list type=”arrow3″]

[/list][:]

fr_FR