MEDIA Géomédia

[:fr]Mise à disposition d’un échantillon de la base de données Géomédia[:en]Provision of a sample from Geomedia database[:]

[:fr]8 flux RSS sur les 300 actuellement collectés[:en]8 RSS feeds out of 300 currently collected[:]

[:fr]Le projet ANR Corpus Géomédia a été lancé en février 2013. Il associe géographes, spécialistes des médias et de la communication et informaticiens.

Son objectif est de mettre en place, pour une centaine de journaux dans le monde (francophones, anglophones et hispanophones), un outil pour capter les flux RSS concernant l’actualité internationale puis de répondre à plusieurs questions de recherche : qu’est-ce qu’un événement ? Comment expliquer les sous ou surreprésentations de certains espaces ou acteurs ? Peut-on modéliser une circulation de l’information à l’échelle globale ?

Réalisé conjointement avec des équipes d’informaticiens et de spécialistes de modélisation de l’information géographique et médiatique, ce projet devrait offrir une base de données innovante pour les recherches futures sur la mondialisation, bien au-delà des disciplines géographiques et médiatiques. Stockant une information volatile (les flux RSS enrichis d’attributs spatiaux) et libre de droits (à la différence des articles de journaux), il constituera une archive utile à la fois aux historiens du temps présent et aux chercheurs des générations futures.

L’application Géomédia a été mise en place début 2014 dans le cadre du projet de collecte des flux RSS. Aujourd’hui, 300 flux RSS sont branchés à l’outil de collecte et plus de 6 millions d’items (articles) RSS ont été collectés, en 8 langues (français, anglais, espagnol, portugais, allemand, italien, polonais, catalan).

Répartition des flux RSS collectés, par langue

[column col=”1/1″][frame src=”http://cist.cnrs.fr/wp-content/uploads/2015/06/cist-geomedia.png” width=”131 px” lightbox=”on” title=”Projet ANR Corpus Géomédia – Répartition des flux RSS collectés, par langue” align=”left” ][/column]

L’ANR Corpus Géomédia a pour objectif de mettre à disposition l’ensemble de sa base de données en libre accès, à la fin du projet (juin 2016). Néanmoins, nous mettons dès aujourd’hui un échantillon de la base de données à disposition, afin d’amorcer un échange avec le monde scientifique sur les méthodes de traitement, d’enrichissement et de représentation visuelle des données de flux RSS médiatiques.

L’échantillon proposé correspond à l’ensemble des items (articles) RSS collectés entre le 1er octobre 2014 et le 31 décembre 2014 pour 8 flux RSS.

[column col=”1/1″][frame src=”http://cist.cnrs.fr/wp-content/uploads/2015/06/cist-geomedia-sample_feeds.png” width=”131 px” lightbox=”on” title=”Projet ANR Corpus Géomédia – Flux RSS collectés pour l’échantillon” align=”left” ][/column]

3 langues sont utilisées dans cet échantillon : l’anglais (5 flux), l’espagnol (2 flux) et le français (1 flux). Les 8 flux sont originaires de 8 pays différents (Australie, Chili, Chine, France, Royaume-Uni, Inde, Mexique et États-Unis).

En savoir plus

[list type=”arrow3″]

[/list][:en]The ANR Corpus Geomedia project was launched in February 2013. It gathers researchers and engineers from various fields: geography, media and communication, and informatics.

It aims at creating, for a hundred newspapers in the world (French-, English- and Spanish-speaking), a tool for capturing RSS feeds dedicated to international news. This tool will then be used to research on various questions: What is an event? How can we explain under or over-representations of certain spaces or actors? Can we model the circulation of information at a global scale?

Jointly led by teams of computer scientists, specialists of geography and media information modelling, this project should offer an innovative database for future research on globalization, far beyond the fields of geography and the media. Storing a volatile information (RSS feeds enriched with spatial parameters) and royalty-free (unlike newspaper articles), it will represent a useful archive both to present time historians and future researchers.
Geomedia application was launched at the beginning of 2014. To date (June 2015), 300 RSS feeds are connected to the collecting application, and over 6 million RSS items (articles) have been collected in 8 languages (French, English, Spanish, Portuguese, German, Italian, Polish and Catalan).

Repartition of collected RSS feeds, by language

[column col=”1/1″][frame src=”http://cist.cnrs.fr/wp-content/uploads/2015/06/cist-geomedia.png” width=”131 px” lightbox=”on” title=”ANR Corpus Geomedia Project – Repartition of collected RSS feeds, by language” align=”left” ][/column]

The ultimate objective of ANR Corpus Geomedia is to provide free access to the whole database by the end of the project (June 2016). However, a sample is already available so as to initiate exchanges with the scientific world about treatment, enrichment and visual projection methods of these RSS feeds.

The proposed sample corresponds to all RSS items (articles) collected for 8 international RSS feeds between October 1st and December 31st, 2014.

[column col=”1/1″][frame src=”http://cist.cnrs.fr/wp-content/uploads/2015/06/cist-geomedia-sample_feeds.png” width=”131 px” lightbox=”on” title=”ANR Corpus Geomedia Project – Collected RSS feeds for the sample” align=”left” ][/column]

Three languages are represented in this sample: English (5 feeds), Spanish (2 feeds) and French (1 feed). All 8 feeds come from 8 different countries (Australia, Chile, China, France, India, Mexico, United Kingdom, USA).

More…

[list type=”arrow3″]

[/list][:]

fr_FR