Aller au contenu
recherche méthodologie transparence rodo

Méthodologie de recherche — Comment nous collectons et analysons les données de tarot

Documentation transparente de notre processus de collecte de données, d'anonymisation, d'attribution des fournisseurs IA, des limites de l'échantillon et du calendrier de mise à jour. n=1 370 tirages, 69 utilisateurs, 7 langues.

Tomasz Fiedoruk 6 min read n=1370

Cette page documente comment nous collectons, anonymisons et analysons les données de tirages de tarot IA que nous publions sur ce site. Nous la mettons à jour dès que la méthodologie change.

Dernière mise à jour : 2026-05-06.

Composition de l'échantillon

Notre jeu de données actuel :

  • 1 370 tirages au total
  • ~750 participants uniques — composés de :
    • 69 utilisateurs enregistrés (identifiés par user_id ; déduplication stricte ; 24 % des tirages)
    • ~680 sessions de visiteurs anonymes (par empreinte IP ; 76 % des tirages)
  • 7 langues (EN 90,7 %, PL 3,6 %, PT 2,9 %, FR 1,2 %, ES 0,9 %, DE 0,4 %, IT 0,2 %)
  • Fenêtre temporelle : 2026-01-01 au 2026-05-02
  • 1 261 tirages avec texte de question (le reste sont des demandes « tirage sans question »)

Mise en garde importante : les empreintes IP des visiteurs surestiment le nombre de participants uniques (plusieurs utilisateurs peuvent partager une IP — foyer, université, NAT d'entreprise) et sous-estiment les utilisateurs récurrents (une même personne depuis mobile + domicile + bureau compte pour 3). Considérez ~750 comme un ordre de grandeur approximatif, pas un chiffre précis. Le chiffre de 69 enregistrés est exact.

Le jeu de données grandit en continu. Les snapshots trimestriels sont publiés avec les statistiques complètes. Les statistiques en temps réel peuvent différer du snapshot publié d'un trimestre au plus.

Ce que nous collectons

Pour chaque tirage, notre application enregistre :

Champ Type Finalité
ID du tirage UUID Identifiant unique
Hash de l'ID utilisateur SHA-256 Regroupement anonymisé des utilisateurs
Type de tirage enum Quel tirage (3 cartes, Celtic, etc.)
Cartes tirées tableau d'IDs de cartes L'ordre compte (positions)
Indicateurs inversés tableau de bool Par carte
Texte de la question texte (optionnel) Si l'utilisateur l'a fourni
Catégorie de la question enum Catégorisée automatiquement : futur, amour, travail, argent, santé, famille, non catégorisé
Langue ISO 639-1 Langue de l'interface au moment du tirage
Horodatage UTC Date + heure
Modèle IA enum gpt-5.4 / claude-sonnet-4.6 / gemini-2.5-flash / nvidia-llama-3.3
Note de l'utilisateur 1-5 (optionnel) Retour post-tirage si fourni

Ce que nous n'enregistrons pas : l'adresse IP (uniquement un hash SHA-256 pour la sécurité), l'e-mail, le nom, la localisation physique au-delà du code pays issu de la géolocalisation IP, les empreintes navigateur, ni aucune autre donnée permettant l'identification personnelle.

Processus d'anonymisation

Les ID utilisateurs dans les statistiques publiées sont des hashes SHA-256 avec un sel par snapshot. Les collisions de hashes sont pratiquement nulles (espace de hash 2^256, 69 utilisateurs).

Pour les statistiques publiées par carte, nous appliquons la k-anonymité avec k=5 :

  • Les combinaisons de (langue + type_tirage + semaine) avec moins de 5 observations sont agrégées vers des regroupements de niveau supérieur avant publication
  • Les ID de tirages individuels n'apparaissent jamais dans les jeux de données publics
  • Le texte des questions est publié uniquement en comptages agrégés par catégorie, jamais verbatim

L'audit d'anonymisation complet est effectué avant chaque publication trimestrielle. Les notes d'audit sont incluses dans le téléchargement du jeu de données.

Attribution des fournisseurs IA

Les tirages sont générés par l'un de quatre fournisseurs LLM selon le niveau de l'utilisateur et l'état de la file d'attente :

  • NVIDIA Llama 3.3 70B — niveau gratuit de dernier recours
  • OpenRouter Gemini 2.5 Flash — niveau gratuit principal (≥90 % des tirages gratuits)
  • OpenRouter Qwen3-235B — niveau gratuit secondaire
  • OpenRouter GPT-5.4 — tirages du niveau payant 1 (« Seeker »)
  • Anthropic Claude Sonnet 4.6 — tirages du niveau payant 2 (« Mystic »), double oracle

L'attribution du fournisseur IA par tirage est incluse dans le jeu de données pour les chercheurs souhaitant comparer le comportement des IA selon les fournisseurs.

Limites statistiques

Trois limites importantes :

Taille de l'échantillon. 1 370 tirages suffisent à détecter des effets forts (une déviation de 50 %+ par rapport à l'aléatoire, par exemple) mais pas pour des tests de signification fine par carte. Pour affirmer qu'une carte spécifique apparaît plus souvent que le hasard, il nous faudrait environ 6 000 tirages selon le calcul standard de taille d'échantillon du chi-deux pour une distribution à 78 catégories. Nous en sommes approximativement à mi-chemin.

Biais de sélection. Nos utilisateurs ne sont pas un échantillon représentatif de l'ensemble des utilisateurs de tarot dans le monde. Ce sont des personnes qui :

  • ont trouvé aimag.me par le biais de la recherche, des réseaux sociaux ou d'une recommandation
  • parlent l'une de nos langues prises en charge
  • étaient à l'aise avec un outil de tarot IA en ligne
  • se sont auto-sélectionnées dans notre canal

La généralisation à « tous les utilisateurs de tarot » n'est pas justifiée à partir de ce jeu de données.

Observationnel, pas expérimental. Nous ne randomisons pas, nous n'avons pas de groupe de contrôle, nous ne pouvons pas établir de causalité. Nous pouvons décrire des patterns. Nous ne prétendons pas les expliquer.

Calendrier de mise à jour

  • Snapshots trimestriels : janvier, avril, juillet, octobre. Publiés sous forme de jeu de données versionné avec notes d'audit d'anonymisation.
  • Statistiques agrégées en temps réel : mises à jour quotidiennement sur ce site (compteurs en direct, cartes du top, distribution jour de la semaine).
  • Données par tirage : jamais publiées en temps réel. Toujours regroupées dans des snapshots anonymisés trimestriels.

Conflit d'intérêts

L'auteur de cette recherche exploite aimag.me, l'outil de tarot IA à partir duquel ces données sont collectées. Cela est mentionné sur chaque page. Nous avons un intérêt financier à ce que les utilisateurs trouvent le tarot suffisamment utile pour s'abonner aux niveaux payants.

Pour minimiser le biais lié à ce conflit :

  • Nous publions les données même lorsqu'elles sont défavorables au tarot IA (par ex., le résultat de la distribution Majeur:Mineur contredit directement les affirmations mystiques)
  • Nous nous engageons à publier tous les snapshots trimestriels quels que soient les résultats
  • Nous documentons et expliquons les changements de méthodologie dès qu'ils surviennent
  • Le jeu de données lui-même est ouvert sous licence Creative Commons — n'importe qui peut mener sa propre analyse et contester nos interprétations

Licence

Les statistiques publiées sur ce site sont diffusées sous Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).

Format de citation :

aimag.me Tarot Reading Dataset (n=1 370). Collected 2026-01-01 to 2026-05-02. Jeu de données ouvert et anonymisé. Disponible sur aimag.me/research.

Questions

Pour les questions de méthodologie, les demandes d'accès au jeu de données ou les demandes de réplication : [email protected].

Pour les demandes relatives aux droits des personnes (RGPD/RODO), consultez notre Politique de confidentialité.

Cite this research

If you use this in research, journalism, or analysis:

Fiedoruk, T. (2026). Méthodologie de recherche — Comment nous collectons et analysons les données de tarot. aimag.me Research. Retrieved from https://aimag.me/research/methodology

License: CC BY-SA 4.0. Dataset: /research/dataset

Want to add your own reading to the next snapshot?

Try a free reading on aimag.me →
Accueil Cartes Tirage Se connecter