Przeskocz do treści
research methodology transparency rodo

Metodologia badań — jak zbieramy i analizujemy dane tarotowe

Przejrzysta dokumentacja procesu zbierania danych, anonimizacji, atrybucji dostawcy AI, ograniczeń próbki i harmonogramu aktualizacji. n=1370 odczytów, 69 użytkowników, 7 języków.

Tomasz Fiedoruk 6 min read n=1370

Ta strona dokumentuje, jak zbieramy, anonimizujemy i analizujemy dane odczytów AI tarot, które publikujemy na tej stronie. Aktualizujemy ją za każdym razem, gdy metodologia ulega zmianie.

Ostatnia aktualizacja: 2026-05-06.

Skład próbki

Nasz aktualny zbiór danych:

  • 1370 odczytów łącznie
  • ~750 unikalnych uczestników — złożonych z:
    • 69 zarejestrowanych użytkowników (identyfikowanych przez user_id; deduplikacja ścisła; 24% odczytów)
    • ~680 anonimowych sesji gości (przez odcisk IP; 76% odczytów)
  • 7 języków (EN 90,7%, PL 3,6%, PT 2,9%, FR 1,2%, ES 0,9%, DE 0,4%, IT 0,2%)
  • Okno czasowe: 2026-01-01 do 2026-05-02
  • 1261 odczytów z tekstem pytania (reszta to żądania "losuj bez pytania")

Ważna uwaga: odciski IP gości zawyżają liczbę unikalnych uczestników (wielu użytkowników może dzielić IP — gospodarstwo domowe, uczelnia, korporacyjny NAT) i zaniżają powracających (jedna osoba na trzech różnych IP — mobilnym, domowym, biurowym — liczy się jako 3). Traktuj ~750 jako przybliżony rząd wielkości, nie precyzyjną liczbę. Liczba 69 zarejestrowanych jest dokładna.

Zbiór danych rośnie ciągle. Kwartalne snapshoty są publikowane z pełnymi statystykami. Statystyki w czasie rzeczywistym mogą różnić się od opublikowanego snapshotu o maksymalnie jeden kwartał.

Co zbieramy

Dla każdego odczytu nasza aplikacja loguje:

Pole Typ Cel
Reading ID UUID Unikalny identyfikator
Hasz User ID SHA-256 Zanonimizowane grupowanie użytkowników
Typ spreadu enum Który spread (3-karta, Celtic, itp.)
Wyciągnięte karty tablica ID kart Kolejność ma znaczenie (pozycje)
Flagi odwrócenia tablica bool Per karta
Tekst pytania tekst (opcjonalny) Jeśli użytkownik podał
Kategoria pytania enum Automatycznie kategoryzowane: przyszłość, miłość, praca, pieniądze, zdrowie, rodzina, niekategoryzowane
Język ISO 639-1 Język UI w momencie odczytu
Znacznik czasu UTC Data + czas
Model AI enum gpt-5.4 / claude-sonnet-4.6 / gemini-2.5-flash / nvidia-llama-3.3
Ocena użytkownika 1-5 (opcjonalna) Feedback po odczycie, jeśli podany

Czego nie logujemy: adresu IP (tylko hasz SHA-256 dla bezpieczeństwa), e-maila, imienia, lokalizacji fizycznej poza kodem kraju z geolokalizacji IP, odcisków przeglądarki ani żadnych innych danych osobowych.

Proces anonimizacji

User ID w opublikowanych statystykach to hasze SHA-256 z solą per-snapshot. Kolizje haszy są praktycznie niemożliwe (przestrzeń haszy 2^256, 69 użytkowników).

Dla opublikowanych statystyk per karta stosujemy k-anonimowość z k=5:

  • Kombinacje (język + typ_spreadu + tydzień) z mniej niż 5 obserwacjami są agregowane do wyższych grup przed publikacją
  • Poszczególne ID odczytów nigdy nie pojawiają się w publicznych zbiorach danych
  • Tekst pytań jest publikowany wyłącznie w zagregowanych licznikach kategorii, nigdy dosłownie

Pełny audyt anonimizacji jest przeprowadzany przed każdą kwartalną publikacją. Notatki z audytu są dołączane do pobrania zbioru danych.

Atrybucja dostawcy AI

Odczyty są generowane przez jednego z czterech dostawców LLM w zależności od poziomu użytkownika i stanu kolejki:

  • NVIDIA Llama 3.3 70B — fallback darmowego poziomu (ostatnia deska ratunku)
  • OpenRouter Gemini 2.5 Flash — główny darmowy poziom (≥90% darmowych odczytów)
  • OpenRouter Qwen3-235B — drugorzędny darmowy poziom
  • OpenRouter GPT-5.4 — odczyty płatnego Poziomu 1 ("Seeker")
  • Anthropic Claude Sonnet 4.6 — odczyty płatnego Poziomu 2 ("Mystic") z podwójnym wyrocznią

Atrybucja dostawcy AI per odczyt jest zawarta w zbiorze danych dla badaczy chcących porównać zachowanie AI między dostawcami.

Ograniczenia statystyczne

Trzy ograniczenia mają znaczenie:

Wielkość próbki. 1370 odczytów wystarczy do wykrycia silnych efektów (odchylenie ponad 50% od losowości, na przykład), ale nie do szczegółowego testowania istotności per karta. Żeby twierdzić, że konkretna karta pojawia się częściej niż przypadek, potrzebowalibyśmy około 6000 odczytów według standardowego obliczenia wielkości próbki chi-kwadrat dla rozkładu 78-kategoryjnego. Jesteśmy mniej więcej w połowie drogi.

Bias selekcji. Nasi użytkownicy nie są reprezentatywną próbką wszystkich użytkowników tarota globalnie. Są to osoby, które:

  • Znalazły aimag.me przez wyszukiwarkę, media społecznościowe lub polecenie
  • Mówią w jednym z naszych obsługiwanych języków
  • Były komfortowe korzystając z webowego narzędzia AI tarot
  • Samodzielnie wybrały nasze narzędzie

Generalizacja na "wszystkich użytkowników tarota" nie jest uzasadniona na podstawie tego zbioru.

Obserwacyjne, nie eksperymentalne. Nie randomizujemy, nie mamy grupy kontrolnej, nie możemy ustalić przyczynowości. Możemy opisywać wzorce. Nie możemy twierdzić, że je wyjaśniamy.

Harmonogram aktualizacji

  • Kwartalne snapshoty: styczeń, kwiecień, lipiec, październik. Publikowane jako wersjonowany zbiór danych z notatkami z audytu anonimizacji.
  • Zagregowane statystyki w czasie rzeczywistym: aktualizowane codziennie na tej stronie (liczniki na żywo, top karty, rozkład dni tygodnia).
  • Dane per odczyt: nigdy nie publikowane w czasie rzeczywistym. Zawsze porcjowane do kwartalnych zanonimizowanych snapshotów.

Konflikt interesów

Autor tych badań prowadzi aimag.me, narzędzie AI tarot, z którego zbierane są dane. Jest to ujawnione na każdej stronie. Mamy interes finansowy w tym, by użytkownicy uznawali tarot za wystarczająco użyteczny, by subskrybować płatne poziomy.

Aby zminimalizować bias wynikający z tego konfliktu:

  • Publikujemy dane nawet gdy są niekorzystne dla AI tarot (np. odkrycie losowości Major:Minor bezpośrednio podważa mistyczne twierdzenia)
  • Zobowiązujemy się do publikowania wszystkich kwartalnych snapshotów niezależnie od tego, co pokazują
  • Dokumentujemy i wyjaśniamy zmiany metodologii przy każdej okazji
  • Sam zbiór danych jest otwarty na licencji Creative Commons — każdy może przeprowadzić własną analizę i nie zgadzać się z naszymi interpretacjami

Licencja

Statystyki opublikowane na tej stronie są wydane na licencji Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).

Format cytowania:

aimag.me Tarot Reading Dataset (n=1370). Zebrane 2026-01-01 do 2026-05-02. Zanonimizowany otwarty zbiór danych. Dostępne na aimag.me/research.

Pytania

W kwestiach metodologicznych, próśb o dostęp do zbioru danych lub zapytań o replikację: [email protected].

W sprawach RODO/GDPR dotyczących praw podmiotów danych — patrz nasza Polityka Prywatności.

Cite this research

If you use this in research, journalism, or analysis:

Fiedoruk, T. (2026). Metodologia badań — jak zbieramy i analizujemy dane tarotowe. aimag.me Research. Retrieved from https://aimag.me/research/methodology

License: CC BY-SA 4.0. Dataset: /research/dataset

Want to add your own reading to the next snapshot?

Try a free reading on aimag.me →
Start Karty Odczyt Zaloguj się