FR:Web scraping

From Open Food Facts wiki
Revision as of 12:07, 29 April 2020 by Charlesnepote (talk | contribs) (4 revisions imported: Import from french wiki (6th part))

Définition du scraping

Le web scraping est l'action de récolter automatiquement des données d'un site web pour les utiliser d'une autre manière que sur le site original.

Par exemple, dans le cadre d'Openfoodfacts, le scraping consiste à prendre les informations sur des produits, la liste d'ingrédient, les images, les informations nutritionnelles, etc. d'une source externe comme une e-boutique ou une enseigne de grande distribution pour les rendre disponibles sur Openfoodfacts.

Position d'Openfoodfacts

Même si scraper des données permettrait à Openfoodfacts d'augmenter plus rapidement la taille de sa base de données, le scraping est interdit et pour plusieurs raisons :

  • Les listes sont souvent sous une licence ne permettant pas l'extraction des données. Openfoodfacts partage ses données sous licence libre, ainsi, si Openfoodfacts scrapait des données soumises à la propriété intellectuelle, elle s'exposerait à des problèmes juridiques.
  • Les informations partagées sur les sites externes sont très difficiles à vérifier. En effet, contrairement à Openfoodfacts, rare sont les sites à afficher les images permettant d'avoir confiance dans les informations affichées.
  • Les informations sont souvent inexactes. D'expérience, les sites externes sont souvent truffés de fautes. Et à cause du point précédent, il n'y a pas de moyen de vérifier et corriger les données.
  • Le scraping est mal vu. Prendre des informations, même disponibles gratuitement, sans le consentement de leur propriétaire peut être mal vu et Openfoodfacts cherche a avoir bonne réputation.

Demandes de scraping

Openfoodfacts ne fait pas et n'autorise pas à faire de demandes de scraping en son nom, car :

  • Beaucoup d'entreprises ne souhaitent pas apparaître avec Openfoodfacts. Cela pourrait nuire à leur image par exemple en affichant des informations nutritionnelles sur leurs produits qui ne sont pas en leur avantage.
  • Le premier contact avec une entreprise doit se faire pour une raison d'intérêt commun et ainsi ne pas laisser une mauvaise trace en cas de refus.
  • Pour les raisons de qualité et de contrôle expliquées plus haut.

Données offertes à Openfoodfacts

Néanmoins, si une entreprise ou une personne possédant une base de données souhaite la partager, Openfoodfacts accepte avec plaisir de la mettre à disposition sous licence libre sur son site. Pour ce genre de demande, contactez contact@openfoodfacts.org.