CLOO
Recursos

Textos

Os RCT’s não são (sempre) a resposta

Este artigo apareceu originalmente na revista Behavioral Scientist. A tradução do artigo foi autorizada pela revista Behavioral Scientist.    


Para ver a versão original, siga o link.


 


Imagine que uma empresa com 20 colaboradores lhe pede para criar um nudge com o objetivo de reduzir a quantidade de papel utilizado. Após alguma análise dos processos da empresa, chega à conclusão que uma das razões pelas quais a empresa está a gastar tanto papel é que a maioria dos seus colaboradores imprime apenas num lado da folha, em vez de imprimir nos dois lados. Quando pergunta aos colaboradores a razão disso acontecer, eles dizem-lhe que simplesmente se esquecem; na verdade, não é algo em que eles pensem muito. Esta parece uma situação perfeita para um nudge, um “empurrãozinho” no momento de decisão, que influenciará as pessoas a imprimir frente e verso, beneficiando tanto a empresa como o ambiente.


Para o efeito deste exemplo, vamos imaginar que não é possível programar as impressoras para imprimir frente e verso por defeito. Um cientista comportamental poderia pensar então num nudge simples, mas potencialmente muito eficaz: programar uma mensagem pop-up que, cada vez que alguém pressione o botão “imprimir”, relembre a opção de imprimir de ambos os lados da folha. No entanto, como bom profissional de ciências comportamentais que é, você não quer apenas implementar o nudge, mas também testar se o nudge está a funcionar como é desejado, e medir quanto papel (e dinheiro) está efetivamente a ser poupado. Mas como será que poderia testar a eficácia do nudge neste caso?


Para o efeito deste exemplo, vamos imaginar que não é possível programar as impressoras para imprimir frente e verso por defeito. Um cientista comportamental poderia pensar então num nudge simples, mas potencialmente muito eficaz: programar uma mensagem pop-up que. cada vez que alguém pressiona o botão “imprimir”, relembre da opção de imprimir de ambos os lados da folha. No entanto, como bom profissional de ciências comportamentais que é, você não quer apenas implementar o nudge, mas também testar se o nudge está a funcionar como é desejado, e medir quanto papel (e dinheiro) está efetivamente a ser poupado. Mas como poderia testar a eficácia do nudge neste caso?


Para aqueles familiarizados com a economia comportamental e nudging a resposta é provavelmente óbvia: um teste controlado randomizado (RCT). Na prática, isto significa que a mensagem pop-up iria ser programada em metade dos computadores (condição de intervenção) mas não na outra metade (condição de controlo). Mais tarde, seria então possível comparar a quantidade de papel gasto em cada grupo, para perceber se o nudge foi bem-sucedido.


Esta parece ser a melhor estratégia, mas será mesmo? A decisão sobre como avaliar o efeito deste nudge em específico - e, como veremos, de muitos outros - não é tão simples como poderá parecer.


Na verdade, um RCT pode não ser a forma mais eficaz de testar o nosso nudge hipotético. Porquê? Por uma razão, o tamanho da amostra (20) é muito pequeno, o que significa que mesmo que uma diferença seja observada, essa diferença poderá não refletir um efeito verdadeiro. Imagine que por acaso duas pessoas com fortes atitudes pró-ambientais são incluídas no grupo pop-up. Acontece que estas duas pessoas são também as únicas que já imprimiam frente e verso antes da intervenção. Neste caso, se o grupo pop-up tiver um melhor desempenho, a vantagem observada pode ser devida ao comportamento destas duas pessoas, e não à intervenção.


Existe também o perigo oposto. Se os mesmos dois ambientalistas forem incluídos no grupo de controlo, um efeito verdadeiro poderá passar despercebido. Os problemas subjacentes relacionam-se com o facto de a aleatorização não garantir a equivalência entre grupos quando a amostra é pequena, e de uma pequena amostra poder resultar num teste com potência estatística reduzida, reduzindo a capacidade de detetar efeitos verdadeiros.


RCT’s: O padrão de excelência do design de investigação?


O truísmo que os RCT’s são o “padrão de excelência” da avaliação de programas de intervenção - uma crença largamente partilhada na área da economia comportamental - implica que estes devem ser sempre usados para avaliar intervenções baseadas em nudges. Por exemplo, a Behavioural Insighs Unit (BIT), do Reino Unido, promove o uso de RCT’s como uma ferramenta essencial para políticas eficazes baseadas em evidências. No entanto, esta crença deu origem à crença de que os RCT’s são o único método aceitável e cientificamente válido de avaliação para intervenções baseadas em nudges. Tal como o exemplo anterior claramente mostra, isso não é verdade.


Não estamos a dizer que os RCT’s não têm os seus méritos - longe disso. Tal como argumentou o proeminente estatístico Ronald Fisher, o número de fatores que podem variar entre dois grupos é interminável, e a aleatorização é o único método que pode - sob as condições adequadas - garantir que a intervenção é a única diferença sistemática entre dois grupos. Os RCT’s são, de facto, o método mais seguro para estabelecer relações de causa-efeito, e têm sido frequentemente utilizados para avaliar intervenções de nudging de forma rigorosa, contribuindo consideravelmente para o nosso conhecimento sobre a eficácia de diferentes nudges em diferentes contextos.


Os RCT’s devem ser utilizados para avaliar intervenções baseadas em nudges sempre que for adequado. No entanto, os RCT’s não são sempre adequados. Em alguns casos porque a) não são viáveis ou operacionalizáveis, b) são considerados pouco éticos, e c) não estão livres de limitações.


Os RCT’s Não São Sempre Viáveis


Em escolas, por exemplo, a aleatorização a nível individual não é geralmente possível. Isto porque as intervenções em escolas muitas vezes ocorrem em contexto de sala de aula, onde todos os alunos são expostos a elas. Noutros casos, as escolas recusam-se a aplicar programas educativos de forma desigual aos seus alunos. Tendo em consideração estes constrangimentos, outros designs de investigação são mais adequados para fornecer insights importantes. Tais designs incluem a aleatorização de grupos (aleatorizando ao nível da turma/departamento ou escola/empresa), o design pré-teste-pós-teste, entre outras possibilidades.


Os RCT’s Não São Sempre Considerados Éticos


Num RCT, um grupo recebe uma intervenção, enquanto outro não. Isto levanta questões éticas. Por exemplo, expor apenas alguns alunos a uma intervenção que pretende ajudá-los a criar um plano para se inscreverem na faculdade pode ser percebido como injusto pelas escolas, pais e alunos. Se é verdade que os investigadores compreendem que a existência de um grupo de controlo é a melhor forma de averiguar se a intervenção realmente funciona, diretores escolares e professores podem não estar dispostos a negar a metade dos seus alunos esse potencial benefício. Mesmo que o grupo de controlo seja, mais tarde, alvo da intervenção, poderá ainda assim ser considerada uma situação injusta ou pouco ética.


Os RCT’s Têm Limitações


Tal como mencionado anteriormente, uma das maiores limitações dos RCT’s é o facto de serem um método de avaliação fraco quando a amostra é pequena. Mas outra questão tem a ver com ser difícil ter um grupo de controlo puro. Administrar um nudge semelhante na condição de controlo - um delineado para não produzir qualquer efeito, como uma mensagem sobre um tópico diferente - pode ainda assim ter um efeito, levando a uma subestimação do tamanho do efeito do tratamento (o que é comum em contextos de saúde). Para além disso, se os participantes de condições experimentais diferentes estiverem em proximidade, poderão comunicar sobre aquilo que receberam, prejudicando a validade do teste.


Por fim, o ênfase excessivo nos RCT’s e em “efeitos médios de tratamento” pode levar investigadores a negligenciar a variância individual, efeitos sub-grupais, e a análise de mecanismos causais mais complexos. Por outras palavras, uma vez que os RCT’s “tomam conta” de todos os fatores para lá da intervenção, os investigadores não precisam de se preocupar com estes outros fatores. Isto é indesejado, já que, como muitos cientistas sociais sabem, “o diabo está nos detalhes”. O conhecimento preciso sobre os mecanismos causais é essencial para entender as condições específicas em que o tratamento irá ou não funcionar e, em última instância, para o refinamento das teorias subjacentes.


Avaliação Para Além Dos RCT’s


Não só os RCT’s têm limitações, como designs não aleatorizados podem ser menos problemáticos do que parecem.


As limitações teóricas dos designs não aleatorizados não são sempre observadas na prática. Por exemplo, uma crítica comum do design pré-teste pós-teste é a história - isto é, o facto dos resultados poderem ser explicados por um evento externo que ocorreu simultaneamente à intervenção, e não pela intervenção em si. No entanto, este aspeto é bastante minimizado em intervenções de duração mais curta. Outras estratégias podem ser também utilizadas para ultrapassar as limitações dos designs não aleatorizados. Por exemplo, se observarmos uma diferença entre o grupo de tratamento e diversos grupos de controlo num design não aleatorizado tal irá aumentar a confiança que existe um efeito real do tratamento.


Recentemente, Angus Deaton e Nancy Cartwright chegam ao ponto de afirmar que os RCT’s não merecem estatuto especial e que considerá-los como a verdade absoluta pode ser um impedimento ao progresso científico. “A perspetiva de padrão de excelência ou verdade causa danos quando mina a obrigação da ciência de conciliar os resultados dos RCT’s com outras evidências num processo de compreensão cumulativa”, escrevem estes autores. Nós concordamos com a importância de integrar diferentes fontes de dados. Se diferentes designs de investigação apontarem para os mesmos resultados, poderemos ter mais confiança nas conclusões. Todos os métodos e designs existentes são válidos quando aplicados nas condições certas - o que pode não ser válido são as inferências realizadas a partir dos resultados.


Consequências para Profissionais das Ciências Comportamentais


Uma vez que nenhum método ou design de investigação é perfeito, os investigadores devem pesar as forças e as fraquezas de cada design.


Vamos aplicar este raciocínio crítico à avaliação do nosso nudge baseado em pop-ups. Investigadores experientes provavelmente iriam optar por um design pré-teste pós-teste. Este design implicaria medir a quantidade de papel usado pela empresa antes da intervenção e compará-la com a quantidade de papel usado após a implementação do nudge. Se as taxas de impressão forem estáveis, medir o uso de papel durante duas semanas antes e duas semanas depois da introdução do nudge pode ser adequado. Medições follow-up poderiam também ser incluídas de forma a avaliar os efeitos do nudge ao longo do tempo (e.g. 2, 6, e 12 meses). Na prática, os investigadores teriam também que colaborar com a empresa para especificar um sistema de registo adequado.


Em alternativa, os investigadores poderiam considerar um design em bloco, fazendo corresponder os grupos em determinados aspetos críticos (como por exemplo o facto de algum colaborador já imprimir frente e verso) e, só depois, aleatoriamente alocar os participantes às condições.


Definir o melhor método de design de investigação para avaliar um nudge é muito mais interessante e desafiante do que se poderia assumir à partida. Os RCT’s não são uma resposta única para como avaliar um nudge. E de facto, muitas intervenções baseadas em nudges poderão parecer ter falhado, não devido a terem premissas teóricas erradas, mas porque não estão a ser avaliadas da melhor forma possível.


Dadas as sérias consequências de intervenções mal testadas, os profissionais que aplicam nudges devem ter um conhecimento abrangente de metodologias de avaliação. Encorajamos fortemente um maior debate metodológico - tal é crucial para o desenvolvimento da área. A mesma criatividade e pensamento crítico utilizados pelos investigadores na criação de nudges, deve ser também aplicado na sua avaliação.

Criado por

Tânia Ramos, PhD, Executive Director and Senior Behavioral Policy Consultant

João Matos, MSc, Behavioral Policy Consultant

Referências

Bertsimas, D., Johnson, M., & Kallus, N. (2015). The power of optimization over randomization in designing experiments involving small samples. Operations Research, 63(4), 868-876.

Deaton, A., & Cartwright, N. (2018). Understanding and misunderstanding randomized controlled trials. Social Science & Medicine, 210, 2-21.

Fisher, R. A. (1935). The design of experiments. Edinburgh and London: Oliver and Boyd.

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688-701.

VanVoorhis, C. W., & Morgan, B. L. (2007). Understanding power and rules of thumb for determining sample sizes. Tutorials in Quantitative Methods for Psychology, 3(2), 43-50.