Spark pour les débutants: Projet Part 1

English English

Bonjour tout le monde, je vais enchaînée une nouvelle série de post consacré à un réel projet Big Data.

Contexte du projet

Big Data est un terme qui décrit l’évolution de tout montant volumineux de données structurées et non structurées.
Big Data est caractérisées par 3VS:

  •  Le volume extrême de données.
  • La grande variété de types de données.
  • La vitesse à laquelle les données doivent être traitées.

L’analyse des données repose sur des statistiques descriptives et prédictives pour en tirer des enseignements de vos données. Donc, au cours de cette série de tutoriels, nous allons choisir une thématique, nous allons fixer notre objectif entreprise et nous allons recueillir des données et essayer de faire des statistiques.

Thématique

Nous avons choisi le système alimentaire mondial comme thématique. En toute mesure, les ensembles de données sont grandes. En utilisant Big Data pour révolutionner la façon dont les gens découvrent les restaurants et la nourriture.
Nous allons donc prendre des objectifs au sujet des aliments commerciaux différents.

Identification des sources de données

Open Food Fact

Est une base de données libre, ouverte et collaborative des produits alimentaires dans le monde entier. Le data set se trouve dans ce lien (157 MB). Voici quelques colonnes qu’elle contient.

  • code (text)
  • url (text)
  • product_name (text)
  • categories (text)
  • origins (text)
  • countries (text)
  • energy_100g (numeric)
  • fat_100g (numeric)
  • sugars_100g (numeric)
  • vitamin_d_100g (numeric)

Instagram API

Est un réseau de partage de photos en ligne gratuit et orienté réseau social, il permet aux membres utilisateurs de télécharger, éditer et partager des photos avec d’autres membres. Nous utiliserons Instagram API pour recueillir des données relatives aux images alimentaires publiées sur Instagram afin d’identifier des informations intéressantes sur les tendances les plus agréables dans le monde entier.

Twitter API

Est un service de réseautage social en ligne qui permet aux utilisateurs d’envoyer et de lire des messages courts de 140 caractères appelés «tweets». Les utilisateurs enregistrés peuvent lire et poster des tweets. Nous allons donc utiliser Twitter pour recueillir des données relatives aux tweets posté et analyse un spectre de traits de personnalité pour aider à découvrir des pistes de réflexion sur les personnes et entités.

Yelp API

Yelp relie les gens avec de grandes entreprises locales. Ses membres ont contribué environ 108 millions d’avis cumulatifs de presque tous les types d’entreprises locales, des restaurants, des boutiques et des dentistes. Nous utilisons Yelp API pour obtenir les meilleures informations commerciales et les commentaires des utilisateurs locaux de plus de millions d’entreprises dans 32 pays.