Ir para o conteúdo
pesquisa metodologia transparência rodo

Metodologia de Pesquisa — Como Coletamos e Analisamos Dados de Tarô

Documentação transparente do nosso processo de coleta de dados, anonimização, atribuição por provedor de IA, limitações da amostra e cadência de atualização. n=1.370 leituras, 69 usuários, 7 idiomas.

Tomasz Fiedoruk 6 min read n=1370

Esta página documenta como coletamos, anonimizamos e analisamos os dados de leituras de tarô IA que publicamos neste site. Atualizamos sempre que a metodologia muda.

Última atualização: 2026-05-06.

Composição da amostra

Nosso conjunto de dados atual:

  • 1.370 leituras no total
  • ~750 participantes únicos — compostos por:
    • 69 usuários registrados (definidos por user_id; deduplicação estrita; 24% das leituras)
    • ~680 sessões de visitantes anônimos (por fingerprint de IP; 76% das leituras)
  • 7 idiomas (EN 90,7%, PL 3,6%, PT 2,9%, FR 1,2%, ES 0,9%, DE 0,4%, IT 0,2%)
  • Janela de tempo: 2026-01-01 a 2026-05-02
  • 1.261 leituras com texto de pergunta (o restante são solicitações de "sorteio sem pergunta")

Ressalva importante: fingerprints de IP de visitantes supercontam participantes únicos (vários usuários podem compartilhar um IP — doméstico, universitário, NAT corporativo) e subcontam usuários que retornam (uma pessoa no celular + em casa + no trabalho conta como 3). Trate ~750 como uma estimativa de ordem de grandeza aproximada, não um número preciso. Os 69 registrados são exatos.

O conjunto de dados cresce continuamente. Snapshots trimestrais são publicados com estatísticas completas. As estatísticas em tempo real podem diferir do snapshot publicado em até um trimestre.

O que coletamos

Para cada leitura, nossa aplicação registra:

Campo Tipo Finalidade
ID da leitura UUID Identificador único
Hash do ID do usuário SHA-256 Agrupamento de usuário anonimizado
Tipo de spread enum Qual spread (3 cartas, Celta, etc.)
Cartas sorteadas array de IDs de cartas A ordem importa (posições)
Flags de reversão array de bool Por carta
Texto da pergunta texto (opcional) Se o usuário forneceu
Categoria da pergunta enum Categorizado automaticamente: futuro, amor, trabalho, dinheiro, saúde, família, sem categoria
Idioma ISO 639-1 Idioma da interface no momento da leitura
Timestamp UTC Data + hora
Modelo de IA enum gpt-5.4 / claude-sonnet-4.6 / gemini-2.5-flash / nvidia-llama-3.3
Avaliação do usuário 1-5 (opcional) Feedback pós-leitura, se fornecido

O que não registramos: endereço IP (apenas hash SHA-256 por segurança), e-mail, nome, localização física além do código de país por geolocalização de IP, fingerprints de navegador, ou qualquer outro dado de identificação pessoal.

Processo de anonimização

Os IDs de usuário nas estatísticas publicadas são hashes SHA-256 com um salt por snapshot. Colisões de hash são praticamente zero (espaço de hash de 2^256, 69 usuários).

Para estatísticas publicadas por carta, aplicamos k-anonimato com k=5:

  • Combinações de (idioma + tipo_de_spread + semana) com menos de 5 observações são agregadas a agrupamentos de nível superior antes da publicação
  • IDs individuais de leitura nunca aparecem em conjuntos de dados públicos
  • O texto das perguntas é publicado apenas em contagens de categorias agregadas, nunca na íntegra

A auditoria completa de anonimização é realizada antes de cada publicação trimestral. As notas da auditoria são incluídas no download do conjunto de dados.

Atribuição por provedor de IA

As leituras são geradas usando um dos quatro provedores de LLM, dependendo do plano do usuário e do status da fila:

  • NVIDIA Llama 3.3 70B — último recurso para plano gratuito
  • OpenRouter Gemini 2.5 Flash — plano gratuito principal (≥90% das leituras gratuitas)
  • OpenRouter Qwen3-235B — plano gratuito secundário
  • OpenRouter GPT-5.4 — leituras do Nível 1 pago ("Seeker")
  • Anthropic Claude Sonnet 4.6 — leituras duplas do Nível 2 pago ("Mystic")

A atribuição do provedor de IA por leitura está incluída no conjunto de dados para pesquisadores que queiram comparar o comportamento de IA entre provedores.

Limitações estatísticas

Três limitações são relevantes:

Tamanho da amostra. 1.370 leituras são suficientes para detectar efeitos fortes (um desvio de 50%+ em relação ao aleatório, por exemplo), mas não para testes de significância por carta em granularidade fina. Para afirmar que uma carta específica aparece mais do que o acaso preveria, precisaríamos de aproximadamente 6.000 leituras, conforme o cálculo padrão de tamanho de amostra qui-quadrado para uma distribuição de 78 categorias. Estamos aproximadamente na metade do caminho.

Viés de seleção. Nossos usuários não são uma amostra representativa de todos os usuários de tarô globalmente. São pessoas que:

  • Encontraram o aimag.me via busca, redes sociais ou indicação
  • Falam um dos nossos idiomas suportados
  • Ficaram à vontade usando uma ferramenta de tarô IA baseada na web
  • Se autosselecionaram no nosso funil

Generalização para "todos os usuários de tarô" não é justificada a partir deste conjunto de dados.

Observacional, não experimental. Não randomizamos, não temos grupo de controle, não podemos estabelecer causalidade. Podemos descrever padrões. Não podemos afirmar explicá-los.

Cadência de atualização

  • Snapshots trimestrais: janeiro, abril, julho, outubro. Publicados como conjunto de dados versionado com notas de auditoria de anonimização.
  • Estatísticas agregadas em tempo real: atualizadas diariamente neste site (contadores ao vivo, cartas mais sorteadas, distribuição por dia da semana).
  • Dados por leitura: nunca publicados em tempo real. Sempre agrupados em snapshots trimestrais anonimizados.

Conflito de interesse

O autor desta pesquisa opera o aimag.me, a ferramenta de tarô IA de onde estes dados são coletados. Isso é declarado em todas as páginas. Temos interesse financeiro em que os usuários considerem o tarô útil o suficiente para assinar planos pagos.

Para minimizar o viés decorrente desse conflito:

  • Publicamos dados mesmo quando são desfavoráveis ao tarô IA (por exemplo, a descoberta de aleatoriedade na proporção Maior:Menor contradiz diretamente as afirmações místicas)
  • Comprometemo-nos a publicar todos os snapshots trimestrais independentemente do que mostrem
  • Documentamos e explicamos as mudanças de metodologia sempre que ocorrem
  • O próprio conjunto de dados é aberto sob licença Creative Commons — qualquer pessoa pode fazer sua própria análise e discordar das nossas interpretações

Licença

As estatísticas publicadas neste site são disponibilizadas sob Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0).

Formato de citação:

aimag.me Tarot Reading Dataset (n=1.370). Coletado de 2026-01-01 a 2026-05-02. Conjunto de dados aberto e anonimizado. Disponível em aimag.me/research.

Perguntas

Para dúvidas sobre metodologia, solicitações de acesso ao conjunto de dados ou consultas de replicação: [email protected].

Para solicitações de titulares de dados relacionadas a RODO/GDPR, consulte nossa Política de Privacidade.

Cite this research

If you use this in research, journalism, or analysis:

Fiedoruk, T. (2026). Metodologia de Pesquisa — Como Coletamos e Analisamos Dados de Tarô. aimag.me Research. Retrieved from https://aimag.me/research/methodology

License: CC BY-SA 4.0. Dataset: /research/dataset

Want to add your own reading to the next snapshot?

Try a free reading on aimag.me →
Início Cartas Leitura Entrar