MEDIA Laboratoires de recherche

Projet Soft data pour les politiques publiques de la ville

Ce projet de l’axe Médias a été sélectionné dans le cadre de l’appel à projets PEPS interdisciplinaires 2014 du CNRS

Ce projet vise à explorer l’importance et le rôle des soft data dans le processus de décision publique concernant l’aménagement et la gestion des villes. Les soft data, appelées « soft » en opposition aux « hard » data traditionnelles produites par les institutions statistiques, sont de nouveaux types de données issues principalement du Web 2.0 (Facebook, Twitter, flux RSS…) qui s’offrent au décideur public comme une source originale et riche d’informations sur les phénomènes sociaux qui ont lieu en ville. Ce qui rend ces données particulièrement intéressantes est le fait qu’elles peuvent intégrer une information géographique dans la donnée médiatique (voir par exemple le check-in Facebook). Face à l’abondance de ces données, ce projet vise à faire un état de l’art des données existantes et à développer une réflexion partagée sur les questions méthodologiques (« méthodes numériques ») et théoriques (rapport entre numérique et physique) liées à l’emploi de ces données dans les politiques de la ville.

État de l’art et hypothèses du projet

Ces dernières années, les nouvelles technologies ont radicalement changé plusieurs secteurs de la société tels que l’économie, la santé, le transport. Un des changements les plus révolutionnaires concerne certainement la diffusion des technologies numériques, notamment le réseau Internet (Castells, 2000). Ce qui rend ce changement particulièrement intéressant est le fait qu’il affecte à la fois la société elle-même et la façon de l’étudier et de la gérer (Benkler, 2006).
D’une part, l’invention des médias numériques a transformé les conditions d’accès à la communication par une partie croissante de la population mondiale. En moins de vingt ans, Internet et le World Wide Web ont joué un rôle crucial dans l’extension des limites spatio-temporelles des interactions humaines : à travers la réduction des coûts de communication, en surmontant les frontières entre les différentes formes de communication (écrit/oral, public/privé…) et en accélérant la circulation des idées et des connaissances.
D’autre part (et en même temps), la communication numérique a secoué les conditions de la recherche et de la politique, en multipliant la disponibilité de traces de phénomènes collectifs. L’avantage des médias électroniques est que toutes les interactions qui les traversent laissent des traces numériques qui peuvent être facilement enregistrées, massivement stockées, puis récupérées et analysées. Ainsi, les médias numériques offrent de nouvelles bases de données énormes qui peuvent être utilisées pour améliorer l’analyse des phénomènes sociaux et, par conséquent, le processus de prise de décision qui leur est lié (Rogers, 2013).

Les traces numériques ne sont pas seulement produites de façon automatique par les technologies numériques : aujourd’hui, nous avons aussi de grandes quantités de données provenant de nouveaux fournisseurs de données tels que des membres de réseaux sociaux en ligne et des utilisateurs des plateformes de partage de contenu. Dans le contexte du Web 2.0, le succès des réseaux sociaux n’est plus en doute et leurs taux de diffusion ont atteint des niveaux sans précédent. Des centaines de millions d’utilisateurs sont inscrits, ils échangent via des forums, des blogs, ils maintiennent des pages Facebook, y racontent leurs dernières pensées, leurs humeurs ou leurs activités en quelques mots, ils partagent différents types de contenus… Le développement d’appareils mobiles tels que les smart-phones ou tablettes a favorisé l’émergence de ces nouvelles pratiques. En conséquence, les utilisateurs de réseaux sociaux laissent des traces de leurs activités en ligne et hors ligne qui peuvent devenir de nouvelles sources d’information (données dites « soft ») extrêmement utiles pour des études territoriales et pour les politiques publiques.

Les soft data, appelées « soft » en opposition aux « hard » data traditionnelles produites par les institutions statistiques, peuvent être définies de façon très générale comme des informations librement disponibles sur Internet, non contrôlées par une administration publique. Elles sont constituées principalement par les nouveaux types de données issues du Web 2.0 (Facebook, Twitter, fils RSS…) qui s’offrent au décideur public comme une source originale et riche d’informations sur les phénomènes sociaux qui ont lieu en ville.
Ce qui rend ces données particulièrement intéressantes est leur nature géo-médiatique, c’est-à-dire le fait qu’elles intègrent une information géographique dans la donnée médiatique (voir par exemple le check-in Facebook).
Traditionnellement, la décision publique liée à la gestion de la ville est basée sur la collecte, la transformation, l’analyse et l’interprétation de ce qui peut être qualifié comme données « hard » à savoir les statistiques officielles et plus généralement les données produites par l’administration publique à différents niveaux (local, urbain, régional, national, international). Ces données ont été soigneusement harmonisées et stockées dans des bases de données, soumises à divers contrôles, complétées par l’estimation de valeurs manquantes et de métadonnées. Ces données représentent une valeur ajoutée exceptionnelle pour les personnes intéressées par la politique urbaine et de cohésion territoriale. Néanmoins, ces dernières années les décideurs publics ont révélé certaines lacunes ou des frustrations importantes liées à ces données :
– le trop long délai de publication (les données officielles font l’objet d’un processus technique et parfois politique à long de l’harmonisation et de la validation)
– la couverture insuffisante de certains sujets d’intérêt pour la cohésion territoriale (l’attractivité des lieux, les sentiments des citoyens, la perception des actions des décideurs publics) qui ne sont pas faciles à représenter avec des données territoriales. Ces sujets sont abordés par de grandes enquêtes, mais avec une faible résolution spatiale (pays), ce qui rend difficile leur application à l’échelle des villes
– la définition top-down des données d’intérêt est une caractéristique inhérente des hard data. Pourtant, on a de plus en plus de demandes pour des données participatives, ouvertes et élaborées par les citoyens, les entreprises, les collectivités locales et régionales. L’approche bottom-up pour la définition des données d’intérêt est une dimension qui ne peut pas être ignorée par les décideurs publics engagés dans la gestion de la ville.

Aucune de ces critiques n’était très importante il y a dix ans. Tant que des données « hard » étaient la principale source d’information pour les décideurs et les citoyens, les gens étaient susceptibles d’admettre un certain retard dans le processus de suivi des territoires. Cependant, l’ordre du jour de la cohésion territoriale est fortement modifié par le développement de la crise (économique, démographique, sociale, environnementale) combinée avec la croissance exponentielle de l’information disponible sur Internet. Un grand nombre d’informations concernant le développement territorial des villes est maintenant disponible sur le Web, en introduisant une concurrence claire pour les producteurs classiques de données.

Le défi de ce projet n’est pas de critiquer cette nouvelle source de données, mais plutôt d’examiner son intérêt potentiel pour les politiques publiques de la ville. En effet, les soft data fournissent – au premier coup d’œil – des solutions intéressantes aux lacunes de hard data mentionnées ci-dessus :
– un délai plus court de publication utile pour l’action publique. Un exemple classique de cette réactivité est donné par l’enregistrement des tremblements de terre par les médias sociaux comme Twitter. De nombreux chercheurs ont démontré que les utilisateurs géolocalisés de réseaux sociaux peuvent être considérés comme des capteurs, capables de localiser les événements catastrophiques en temps réel et de suivre leur développement
– la couverture de nouveaux sujets d’intérêt comme les modes de déplacement dans les zones urbaines, la pauvreté et l’exclusion sociale, les sentiments des citoyens vers les politiques de la ville.. Cela est clairement un effet de la traçabilité inhérent aux supports numériques.
– l’élaboration bottom-up d’information sur mesure : les données « soft » peuvent parfois être le résultat d’une élaboration bottom-up, comme le montre l’exemple de Open Street Map, qui offre une alternative aux cartes officielles produites par les instituts géographiques. Ces données participatives peuvent également être utilisées à des fins non prévues par leur créateur pour créer une information sur-mesure utile au décideur public.

Objectifs du projet

Face à l’abondance de ces nouveaux types de données, ce projet vise à explorer l’importance et le rôle de ces soft data dans le processus de décision publique concernant la gestion de la ville. Si plusieurs études empiriques ont été réalisées, une réflexion théorique sur l’emploi de ces données dans les politiques publiques est encore absente. Plusieurs questions nécessitent d’être abordées. En considérant les limites de temps et de budget de ce projet, nous proposons de commencer cette réflexion en abordant principalement deux questions.

La question méthodologique

Les big data ont soulevé beaucoup d’enthousiasme, mais travailler avec elles est tout sauf simple. Outre les problèmes techniques qui pourraient être soulevés par la masse de données, le chercheur doit également faire face à des problèmes politiques, sociaux et éthiques. En particulier, il faut prendre en compte les questions de représentativité des données (nous ne pouvons pas contrôler l’équivalence entre les traces disponibles sur Internet et la population que nous aimerions étudier), de protection des données (droit à la confidentialité ; droit d’auteur) et celles liées à la nature participative des données. Ce qui rend les données du Web 2.0 intéressantes est le fait qu’elles sont produites par les utilisateurs. Pourtant, leur nature participative doit être soigneusement prise en compte lorsqu’elles sont incluses dans des études territoriales. Ces données sont souvent générées par des sources inconnues, de sorte qu’elles peuvent être fausses ou vraiment hétérogènes.
Toutes ces limites peuvent remettre en cause la qualité de ces données, mais il est important de souligner qu’elles sont également des opportunités. D’un côté, nous devons garder à l’esprit ces questions et, si possible, chercher des solutions pour y faire face. De l’autre côté, en contrepartie, la facette hétérogène, inattendue et parfois ingérable de ces données garantie leur intérêt et leur richesse. Nous travaillons avec ces données parce que nous nous attendons à ce que ces caractéristiques puissent nous aider à trouver de nouvelles idées dans l’analyse territoriale qui peuvent être intégrées aux résultats de l’analyse officielle.
Il est alors important d’avoir des méthodes adéquates pour collecter ces données et les préparer pour l’analyse. Au cours des dernières années, un nouveau groupe de méthodes, appelées « méthodes numériques » (Rogers, 2013), a été développé pour traiter ce type de données. Par « méthodes
numériques » nous nous référons à une série de techniques visant à explorer les traces d’interactions en ligne comme source d’information sur les phénomènes sociaux. Dans ce projet, nous visons à construire une réflexion partagée sur les problématiques méthodologiques de ces données, à travers la création d’un groupe de travail de chercheurs français et étrangers (notamment la Digital Media Initiative de l’Université d’Amsterdam, dirigée par Richard Rogers, le groupe qui contribue le plus aujourd’hui au développement des méthodes numériques en Europe).
Du point de vue méthodologique, nous pourrons également nous appuyer sur les travaux déjà réalisés dans le cadre du projet ANR Géomédia. Les premiers résultats de ce projet suggèrent fortement que l’analyse des flux RSS de journaux quotidiens soigneusement sélectionnés peut fournir une information territoriale très intéressante.

Le défi théorique des soft data

L’utilisation de ces informations provenant de nouveaux fournisseurs et concernant de nouveaux thèmes doit être fortement encouragées dans le processus de gestion de la ville, pour être intégrée aux données officielles. Cependant, au-delà des enthousiasmes initiaux, l’usage de ces méthodes, et en général des traces numériques aujourd’hui, sollicite plusieurs questions théoriques. Entre autres, un des éléments les plus problématiques dans l’application de ces méthodes est la gestion du rapport entre hors ligne et en ligne. Le succès des traces numériques est notamment du à leur pouvoir de révéler des caractéristiques des phénomènes qui ont lieu dans l’espace physique. En effet, à travers ces traces, le chercheur peut étudier un phénomène urbain qu’il n’aurait pu étudier autrement qu’au prix d’une démarche d’enquête de terrain beaucoup plus coûteuse en termes de ressources et de temps.

Évidemment la question du rapport entre en ligne et hors ligne n’est pas nouvelle et la distinction même a été à plusieurs reprises mise en discussion. Sans tomber dans les excès qui visent à affirmer de manière absolue cette distinction ou de la rejeter a priori, nous voulons interroger le type de continuité ou discontinuité générées aujourd’hui par les traces numériques de la ville. Le cas de la ville nous semble particulièrement intrigant pour son être essentiellement physique, mais, en même temps, pour son devenir numérique. Le but de ce projet est de prendre de la distance par rapport à des expériences empiriques liées aux méthodes numériques pour mener une réflexion sur la signification des traces numériques dans le contexte des études urbaines. Quand nous étudions un phénomène urbain à travers des traces que les acteurs liés à ce phénomène ont laissées sur un blog ou un réseau social, sommes-nous en train d’étudier le phénomène hors ligne qui a lieu dans l’espace physique ? Ou sommes-nous en train d’étudier la projection en ligne du phénomène qui a lieu hors ligne ?
Ou cette distinction doit-elle être complètement abandonnée dans le contexte de la ville ? Les traces numériques liées à un objet territorial comme la ville peuvent-elles avoir ou pas une « existence » seulement en ligne ?

Ces questions seront abordées dans une journée d’études organisée en deux parties (workshop et conférence grand public), à laquelle seront conviés des chercheurs d’autres disciplines, notamment des philosophes du numérique et des experts des humanités numériques.

Références

Douay N., Severo M. & Giraud T. (2012), « La carte du sang de l’immobilier chinois, un cas de cyberactivisme », L’information géographique, vol. 76, n° 1, pp. 74-88.
Gautreau P., Severo M., Giraud T. & Noucher M., Formes et fonctions de la « donnée » dans trois webs environnementaux sud-américains (Argentine, Bolivie, Brésil), NETCOM, à paraître.
Giraud T. & Severo M. (2011), « La blogosphère tunisienne », L’espace géographique, n° 2, p. 190.
Giraud T., Grasland C., Lamarche-Perrin R., Demazeau Y. & Vincent J.-M. (2013), « Identification of international media events by spatial and temporal aggregation of newspapers rss flows. Application to the case of the Syrian Civil War between May 2011 and December 2012 », Procceedings ECTQG 2013, Paris.
Grasland C., Giraud T. & Severo M. (2012), « Un capteur géomédiatique d’événements internationaux », Fonder les sciences du territoire (dir. Beckouche P. et al), Karthala, Paris.
Rogers R. (2013), Digital methods, MIT Press.
Severo M. (2012), « Media representations of the Solar Mediterranean Plan: a techno-political controversy », PCST Conference 2012, 18-20 avril, Florence.
Severo M., Giraud T. & Douay N. (2012), « The Wukan’s protests: from local activism to global media event », Just-in-time workshop, Social informatics conference, Lausanne.
Severo M. & Zuolo E. (2012), « Egyptian e-diaspora: migrant websites without a network? », Social Science information, n° 51, pp. 521-533.
Vienne F., Douay N., Le Goix R. & Severo, M. (2014), « Lieux et hauts lieux des densités intermédiaires : une analyse par les réseaux sociaux numériques », conférence Aux frontières de l’urbain, Avignon, janvier 2014.

Équipes participantes

Ce projet est porté par l’axe Médias et territoires du CIST à travers sa responsable, Marta Severo. Cet axe de recherche réunit de nombreux chercheurs de différentes disciplines (communication, géographie, aménagement, sciences politiques, informatique) et appartenant à plusieurs équipes intéressées par les représentations territoriales générées par les données médiatiques. Parmi celles-ci, les suivantes participeront au projet PEPS :
– Groupe d’étude et de recherche interdisciplinaire en information et communication (GERiiCO) : Marta Severo (MCF, science de la communication, Université de Lille 3) et Camille Masse (gestionnaire du projet, Université de Lille 3)
– Savoirs, textes, langage (STL) : Christian Berner (PR, philosophie, Université de Lille 3)
Géographie-cités : Claude Grasland (professeur, géographie et analyse spatiale, Université Paris Diderot), Nicolas Douay (MCF, aménagement, Université Paris Diderot) et Renaud Le Goix (MCF, géographie physique, humaine, économique et régionale, Université Paris 1)
– Réseau interdisciplinaire pour l’aménagement du territoire européen (RIATE) : Timothée Giraud (IE, géomatique)
– Collège international des sciences du territoires (CIST) : Hugues Pecout (IE, cartographie) et François Vienne (IE, aménagement)
– Pôle de recherche pour l’organisation et la diffusion de l’information géographique (PRODIG) : Pierre Gautreau (MCF, géographie, Université Paris 1)
– Centre population et développement (CEPED) : Marina Lafay (chercheur associé, sociologie, coordinateur Projet Emergence Minweb)
– Centre de recherche Textes et francophonies (CRTF) : Romain Badouard (MCF, sciences de la communication, Université de Cergy-Pontoise)
– Aménagement, développement, environnement, santé et sociétés (ADESS) : Marina Duféal (MCF, géographie, Université de Bordeaux 3)
Digital Methods Initiative : Richard Rogers (PR, media studies, Université de Amsterdam)

Phases du projet

Ce financement PEPS est pensé en lien avec un financement ESPON-ORATE (agence européenne pour l’aménagement du territoire) que notre équipe vient de recevoir pour travailler sur le même sujet (call for tender “Tools (2011-2014). Feasibility Study on Analytical Tool based on Big Data”). Le financement ESPON vise à l’exploration empirique des soft data pour l’aménagement. En particulier, le projet est destiné à développer deux cas d’utilisation des soft data pour l’étude d’un groupe de villes européennes.
Nous pensons qu’il est fondamental pour la bonne réalisation du projet d’accompagner l’étude empirique d’une réflexion théorique et que l’axe de recherche Médias et territoires du CIST fournit le contexte idéal pour cette recherche. Par conséquent, nous présentons cette demande de financement PEPS pour pouvoir développer les trois actions suivantes

1. Développement de l’état de l’art et de la réflexion théorique (mars-juillet 2014)
Organisation des plusieurs rencontres avec les participants au projet pour développer de manière partagée une réflexion sur l’emploi des soft data pour les politiques publiques de la ville. Participation de 3 ou 4 personnes à l’École d’été de la Digital Methods Initiative « On Geolocation: Remote Event Analysis ».

2. Journée d’études sur les soft data pour la gestion de la ville, ouverte aux décideurs publics organisée en deux parties (octobre 2014)
Workshop méthodologique sur les données et outils avec des invités externes à un niveau international et conférence grand public de clôture du workshop sur les questions théoriques de traces numériques comme représentation de la ville.

3. Publication scientifique (octobre-décembre 2014)
Réalisation d’une publication avec les résultats théoriques et empiriques du projet. La publication pourra être réalisée comme un ouvrage dans la collection « Le débat du numérique » aux Presses des Mines ou dans la « Collection du CIST » chez Karthala (des accords préliminaires ont été pris auprès des deux partenaires).

En savoir plus

[list type=”arrow3″]

[/list]

fr_FR