Il caso della bistecca taroccata (e il p-value nell’inferenza giudiziaria)

English version down in page

Data l’attenzione sempre più intensa che noi consumatori diamo alla provenienza e alla qualità di ciò che compriamo, in particolare riguardo al cibo, l’etichettatura dei prodotti confezionati sta diventando via via più dettagliata. Attualmente le indicazioni obbligatorie per la carne bovina, oltre alla tipologia (vitello, vitellone, bovino adulto) sono quattro, e riguardano i Paesi in cui l’animale è nato, cresciuto, macellato e sezionato. L’indicazione della razza è facoltativa; però nei due casi che hanno ottenuto il riconoscimento di Indicazione Geografica Protetta in Italia la provenienza razziale degli individui macellati è prescritta dai disciplinari: Chianina, Marchigiana o Romagnola per il “Vitellone bianco dell’appennino centrale”, e Piemontese per il “Vitellone piemontese della Coscia”. Ovvio che il valore aggiunto dall’IGP invoglia i disonesti a spacciare carne di modesto lignaggio per bistecca di nobile casato: uno degli ultimi esempi riguarda il sequestro, in un rinomato ristorante di Firenze, di 30 kg di carne di provenienza estera da parte dei Carabinieri del NAS.

A questo proposito, sul sito #Natura dei Carabinieri si legge:

Oggi è possibile grazie all’esame del Dna riconoscere l’esatta provenienza (da quale animale e da quale allevamento) della bistecca che portiamo in tavola. Pertanto in caso di forti dubbi sulla carne acquistata nei punti vendita è possibile segnalare al desk anticontraffazione on line dei Carabinieri Tutela agroalimentare, presente sul sito del Ministero delle Politiche Agricole Alimentari e Forestali. Nell’attesa che questo test possa divenire “portatile” ed a basso costo per tutti i consumatori, buona Chianina a tutti, meglio se certificata IGP!

In effetti, la tecnologia attuale consentirebbe di costruire un sistema di rintracciabilità della carne bovina basato sulla genotipizzazione di ciascun individuo alla nascita, per poi poterne controllare il destino lungo tutta la filiera, e alcune organizzazioni di produttori hanno manifestato interesse a riportare eventualmente in etichetta una dizione del tipo: «sistema di rintracciabilità controllato mediante analisi del DNA» (verosimilmente perché il consumatore apprezzerebbe). Tuttavia, l’organizzazione pratica di un tale sistema di controllo è piuttosto complessa, trattandosi di una catena di analisi biologiche, ed è ancora in fase di sperimentazione.

Supponiamo comunque di dover affrontare un caso giudiziario in cui si ipotizza una frode alimentare, e che un magistrato chieda ad un perito di stabilire quale sia l’evidenza genetica che un certo taglio di carne, etichettato come Chianina, non sia tale. Come procederemmo?

La base razionale dell’analisi è costituita dal fatto che le specie animali, inclusa quella umana, sono suddivise in popolazioni locali, le quali, se restano isolate le une dalle altre per un tempo sufficiente, si diversificano per la frequenza delle varianti genetiche presenti nella specie: se ad esempio un certo marcatore genetico si può presentare in una specie in due tipi (mettiamo A e B), accadrà magari che in una certa popolazione sia prevalente il tipo A, mentre in un’altra sia prevalente il tipo B. Ciò è dovuto a spinte evolutive di varia natura, incluso anche l’effetto del caso. Le razze degli animali addomesticati non fanno eccezione, anzi, essendo esse popolazioni artificiali mantenute da un numero ridotto di riproduttori accuratamente selezionati, accumulano differenze genetiche a tassi più rapidi delle popolazioni naturali.

Il primo passo del perito è dunque quello di procurarsi, presso una università o altro ente di ricerca, un database genetico specifico della Chianina, in cui sono elencati una serie di marcatori con la lista dei tipi possibili per ciascuno di essi, e la loro frequenza relativa (la cui somma è uguale a uno per ogni marcatore). Il secondo passo è di determinare il profilo genetico della bistecca in questione per una quindicina di marcatori; il terzo passo è di calcolare la probabilità di quel dato profilo genetico usando il database della Chianina. Tutto ciò è relativamente semplice e ordinario.

A quel punto il perito deve trarre le sue conclusioni. Tanto per vedere che cosa potrebbe succedere in concreto se veramente una bistecca fosse taroccata, immaginiamo che la carne sia di una Frisona (che è la principale razza da latte in Italia, ed è anche una significativa fonte di carne); che sia Frisona però è ignoto a tutti tranne probabilmente al ristoratore imbroglione. Un valore di probabilità calcolato per il profilo genetico di 15 marcatori di una tipica frisona realmente esistita, utilizzando il database della Chianina, è risultato pari a 3.3 x 10-26, ovvero un numero con 25 zeri dopo la virgola. Il fatto che tale probabilità sia così minuscola non deve stupire, perché la probabilità di qualunque profilo genetico di qualunque individuo è estremamente bassa, e di per sé non dice nulla sull’eventualità che esso provenga da una chianina o meno.

Il problema che si deve porre il perito è il seguente: il valore testé calcolato è tipico di un bovino estratto a caso da una popolazione di Chianina o si colloca al di fuori della gamma normale di variabilità di quella razza? Nel primo caso non ci sarebbe alcuna evidenza che la carne non sia Chianina, mentre nel secondo caso resteremmo perlomeno perplessi. Il perito ricorre quindi ad una simulazione al computer, che è il metodo oggi più utilizzato nei campi più svariati della statistica. Egli genera un numero arbitrariamente grande di “chianine” costruendo profili genetici a caso usando il database Chianina, e determina come sono distribuiti i valori di probabilità calcolati per ciascuno di essi (sono tutti numeri piccolissimi, ma il perito si rende conto a prima vista che sono in massima parte maggiori di quello calcolato per la bistecca). In breve, su un milione di chianine simulate trova che 29 hanno un profilo genetico con una probabilità più bassa di quella della bistecca, o anche che 999.971 chianine simulate hanno un profilo genetico più probabile di esso (maggiore di 3.3 x 10-26). In altre parole, quel profilo genetico è talmente raro nella Chianina che la probabilità di trovarne per caso uno altrettanto raro è minore di 0,00003 (ovvero 3 su centomila, o anche circa 1 su 35.000).

Qui si dovrebbe concludere l’analisi del perito. Un modo corretto di riportare il risultato al magistrato che ha posto il quesito potrebbe essere: “Se il taglio di carne fosse di Chianina, la probabilità di trovare un profilo genetico così raro, o ancora di più, sarebbe minore di 0,00003 o di circa 1 su 35.000”. Ciascuno a questo punto può formarsi la propria opinione; in un caso giudiziario è compito della Corte interpretare questo valore di probabilità, alla luce di tutte le altre evidenze indiziarie o probatorie emerse nelle indagini, e formulare la decisione finale sulla sussistenza o meno del fatto: è stata venduta come Chianina della carne che non era tale?

*     *     *

L’approccio utilizzato dal perito è un esempio di calcolo di “p-value”. La logica che sottostà alla procedura è sintetizzata da un famoso aforisma di Fisher [1]“The force with which such a conclusion is supported is logically that of the simple disjunction: Either an exceptionally rare chance has occurred, or the theory of random distribution is not … Continue reading, che applicato al nostro caso suonerebbe più o meno così: “Delle due l’una: visto il profilo genetico della bistecca, o è accaduto un evento eccezionalmente raro, o l’ipotesi che provenga da una chianina è falsa”. In sostanza, il metodo inizia con la costruzione di un modello statistico di come si presenterebbero i dati se fosse vera l’ipotesi che si vuole saggiare (“la bistecca è di Chianina”), che nel nostro caso significa precisare la distribuzione di probabilità dei profili genetici delle chianine (che sono ottenuti dalla simulazione); quindi si confronta l’evidenza raccolta (il profilo genetico della bistecca) con quella distribuzione, e se essa risulta sufficientemente improbabile possiamo convincerci che la discrepanza osservata è talmente grande da falsificare l’ipotesi iniziale.

Il p-value, e il “test di significatività” cui esso dà origine, è però oggi sotto attacco incrociato. Da una parte ci sono coloro che denunciano l’uso improprio che ne fanno spesso i ricercatori delle discipline biomediche [2]il culmine dell’assalto, che in effetti è in corso da un paio di decenni, è rappresentato, al momento, da un commento-manifesto pubblicato su Nature intitolato “Eliminiamo la significatività … Continue reading. Nel nostro caso, ad esempio, intuitivamente si potrebbe essere portati a interpretare il p-value (0,00003) come la probabilità che la bistecca sia di Chianina, e quindi concludere: “La probabilità che l’animale da cui proviene il taglio di carne sia di un’altra razza rispetto alla Chianina è maggiore del 99,997%”. Questo è uno dei trabocchetti logici in cui possono incappare anche scienziati esperti (è detta “fallacia del condizionale trasposto”[3]la spiego in dettaglio a pag. 104 del mio libro). Se commessa in tribunale, cosa che è stata riportata in vari casi penali negli USA, è considerata motivo valido per inficiare una sentenza di condanna.

L’altro attacco viene dalla scuola di pensiero bayesiana, che negli ultimi decenni ha acquisito grande slancio grazie allo sviluppo delle tecniche computazionali. I bayesiani sostengono che sia possibile, e anzi desiderabile, calcolare un valore di probabilità per qualsiasi ipotesi che si voglia formulare in alternativa ad un’altra (o altre) ben specificata, e considerano l’approccio basato sul p-value come confusionario e incapace di dare risposte precise: “Poiché il p-value è basato sull’assunzione che l’ipotesi nulla sia vera, non ci fornisce alcuna informazione sull’ipotesi alternativa, che è quella a cui di solito siamo più interessati[4]“Because the p-value is predicated on the null hypothesis being true, it does not give us any information about the alternative hypothesis — the hypothesis we are usually most interested in” … Continue reading. A maggior ragione questa critica si può applicare al nostro caso, in quanto noi non abbiamo alcuna ipotesi alternativa alla Chianina, e non è possibile, anche volendo, calcolare un valore di probabilità che la bistecca sia o non sia di Chianina.

È proprio nella nostra situazione, invece, che emerge l’utilità di uno strumento di analisi minimale come il p-value. Il test di significatività non è altro che la formalizzazione matematico-statistica di un procedimento mentale che applichiamo tutti nella vita quotidiana (e che peraltro non è nemmeno limitato alla specie umana). Se noi abbiamo un’idea di come funzionano le cose in un certo contesto, ci aspettiamo che le nostre esperienze siano compatibili con quell’idea; ma se verifichiamo che esse non lo sono, dovremo decidere se l’inconsistenza supera una certa soglia critica, e, se la supera, saremo indotti a scartare quell’idea come falsa. Avere la sensazione che “c’è qualcosa che non va” non richiede di precisare immediatamente che cosa è quel qualcosa: richiede solo di decidere se è il caso di agire. Il p-value dà una misura numerica precisa della “sensazione che qualcosa non va”.

Un’altra delle critiche mosse al p-value è che esso non provvede una misura del fenomeno di nostro interesse (e anche questo in effetti è spesso fonte di fraintendimenti). È vero: sulla base di un calcolo di p-value si può decidere sulla possibile esistenza di un effetto, non sulla sua grandezza. Ma (appunto) nel nostro caso il magistrato aveva chiesto quale fosse l’evidenza che la bistecca non fosse di Chianina, non aveva chiesto di precisare quanto essa fosse diversa da un taglio di Chianina. A questo proposito, Fisher era stato esplicito sullo status epistemologico del test: “Per quanto sia riconoscibile come una condizione psicologica di riluttanza o resistenza all’accettazione di una proposizione, la sensazione indotta da un test di significatività ha una base oggettiva, nel senso che l’affermazione probabilistica su cui si basa è un fatto comunicabile e verificabile da altre menti razionali. In questi casi il livello di significatività soddisfa la condizione di una misura della base razionale dell’incredulità che esso genera. È più primitivo, o rudimentale, di un’affermazione probabilistica esatta, e non la giustifica” [5]“Though, recognizable as a psychological condition of reluctance, or resistance to the acceptance of a proposition, the feeling induced by a test of significance has an objective basis in that the … Continue reading.

In conclusione, non facciamoci frastornare troppo dalla crescente isteria sul p-value e sui test di significatività. È un po’ come se qualcuno cercasse di convincerci a buttare via il martello perché con quello la gente fa piccoli disastri, e soprattutto perché il martello non serve a girare una vite. Il p-value è in realtà il primo strumento statistico che possiamo proporre a chi pretende di cambiare lo stato della conoscenza attuale, per esempio quando qualcuno prospetta nuove cure miracolose, o, come nel nostro caso, sostiene che la bistecca non è di Chianina. La prima indicazione sperimentale che una qualsiasi pretesa possa essere sensata si ha quando i risultati di prove controllate sono lontani dall’apparire come casuali, e il test di significatività è perfettamente adatto a questo scopo. L’importante, casomai, è saperlo usare in modo appropriato (e non sarebbe poi così difficile, se la varie tribù degli statistici non fossero costantemente impegnate nel farsi la guerra [6]Mayo, D.G. 2018. Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge: Cambridge University Press).

The case of the fake Chianina steak (and the p-value in the judicial inference)

The Chianina (pronounced kee-ah-nee-nah) is an old cattle breed originated in central Italy, which is the source of the renowned “bistecca fiorentina” (the Florentine steak served in restaurants); it is one of the two Italian breeds awarded with the Protected Geographical Indication trademark. Of course, the value added by the PGI induces cheaters to serve modest-rank beef for steak of such a noble lineage; one of the latest examples concerns the confiscation of 30 kg of foreign meat in a renowned restaurant in Florence by the Carabinieri of the NAS (Nuclei Anti-Sofisticazioni).

In this regard, the site #Natura of the Carabinieri says:

Thanks to the DNA test, it is today possible to recognize the exact origin of the steak we bring to the table (from which animal and which breed). Therefore, in case of plausible doubts about beef purchased at a sale point, it is possible to refer to the online anti-counterfeiting desk of the Carabinieri Tutela Agroalimentare, on the website of the Ministry of Agricultural Food and Forestry. Waiting for this test to become “portable” and low cost for all consumers, good Chianina to everybody, better if certified IGP!

Current technology would indeed consent to set up a beef traceability system based on the genotyping of all individuals at birth, to control their fate throughout the food chain; some breeder associations have in fact expressed interest in the labeling of beef cuts with a phrase like «traceability system controlled by DNA analysis» (probably because the consumer would appreciate it). However, the practical implementation of such a system is rather complex, as it involves a chain of biological analyses, and is still under experimentation.

By the way, let us suppose that in a judiciary case where food fraud is suspected the prosecutor asks an expert to provide the genetic evidence that a certain beef cut, labeled as Chianina, is not. How would the expert proceed?

The rationale for the analysis is that animal species, including humans, are subdivided into local populations, and they diversify from each other for the frequencies of the genetic variants present in the species if they remain isolated for a sufficient time: if, for instance, a certain genetic marker may occur in two types (A and B), it may happen that type A is prevalent in a certain population, whereas type B is prevalent in another. This is due to evolutionary drives of various kinds, including also chance effects. The breeds of tamed animals are no exception; being artificial populations maintained by a small number of carefully selected animals, they accumulate genetic differences even faster than natural populations.

The first step of the expert is, therefore, to obtain a Chianina-specific genetic database from a university or other research institution, which includes a list of markers with their characteristics. The second step is to determine the genetic profile of the disputed steak for a certain number of those markers (say 15), and the third step is to calculate the probability of that genetic profile using the Chianina database. All of that is relatively simple and ordinary.

At that point, the expert can draw his conclusions. Just to see what could happen in practice if a Chianina steak was really fake, let’s imagine it is from a Frisona instead (this is unknown to all but maybe the cheating chef; the Frisona is the main milk breed in Italy and is also a significant source of meat). The probability calculated for a 15-marker genetic profile of a typical Frisona that has actually existed, using the Chianina database, was 3.3 x 10-26, or a number with 25 zeros after the decimal point. The fact that this value is so low shouldn’t be surprising, because the probability of any genetic profile of any individual is extremely low, and in itself says nothing whether it comes from a Chianina or not.

The question the expert must ask is the following: is the value he has just obtained typical of a random Chianina, or is it outside the normal range of variability of that breed? In the first case, there would be no evidence that the meat is not Chianina, whereas in the second case we would be at least a little baffled. To address the issue, the expert resorts to a computer simulation (today the most used method in every field of statistics). He generates an arbitrarily large number of Chianinas by building random genetic profiles using the Chianina database, calculates the probability of each, and determines their overall distribution. All these numbers are extremely low, but they immediately appear for the most part higher than that of the steak. In short, out of a million simulated Chianinas, 29 have a probability lower than the steak, or 999,971 have a probability > 3.3 x 10-26. In other words, the steak’s genetic profile is so rare in Chianina that the probability of finding by chance one just as rare, or rarer, is less than 0.00003 (or 3 in a hundred thousand, or about 1 in 35,000).

This is where the expert’s analysis should end. A correct way to report the conclusion in court could be: “If the beef cut was from Chianina, the probability of finding such a rare genetic profile, or rarer, would be less than 0.00003 or about 1 out of 35,000”. At that point, everyone can form their own opinion; in courts, it is up to the Jury to interpret this probability value, in the light of all the other circumstantial or evidential details that emerged in the investigations, and to formulate the final decision on whether the fact existed or not: is it true that a non-Chianina steak was served as Chianina?

* * *

The expert’s approach is based on a p-value calculation. The logic behind the procedure is encapsulated by a famous Fisher aphorism [7]“The force with which such a conclusion is supported is logically that of the simple disjunction: Either an exceptionally rare chance has occurred, or the theory of random distribution is not … Continue reading, which applied to our case would sound more or less like this: “Given the genetic profile of the steak, either an exceptionally rare chance has occurred, or the hypothesis that it is Chianina is false”. In essence, the method starts with the construction of a statistical model of how the data would appear if the hypothesis under scrutiny (“The steak is from Chianina”) were true, which in our case means to specify the probability distribution of the Chianina genetic profiles (which are obtained from the simulation); then, the experimental data (the steak’s genetic profile) is compared with that distribution, and if it turns out that it is sufficiently improbable, it can convince us that the discrepancy is so great as to falsify the initial hypothesis.

The p-value and the significance test that it originated are today under a cross-attack. On the one hand, there are those who point to the improper use of the methodology by too many scientists in biomedical research[8] Amrhein V, Greenland S, McShane B. Retire statistical significance. Nature 567 (2019):305-307. As an example, we could intuitively interpret the p-value in our case (0.00003) as the probability that the steak is Chianina, and affirm consequently: “The probability that the beef cut comes from an animal other than Chianina is higher than 99.997%”. This is one of the logical pitfalls that even experienced scientists can run into (it is called “the fallacy of transposed conditional”). If committed in court, as it has been reported in several criminal trials in the US, is considered a valid reason to challenge a conviction.

The other attack comes from the Bayesian school of thought, which in recent decades has gained great momentum thanks to the development of computational techniques. The Bayesians argue that it is possible, and indeed desirable, to calculate a probability value for any hypothesis that one can formulate as an alternative to any other (or others) that is well specified, and consider the p-value approach as a source of confusion and unable to give precise answers: “Because the p-value is predicated on the null hypothesis being true, it does not give us any information about the alternative hypothesis — the hypothesis we are usually most interested in”[9] Lewis G. H. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biol. Lett.15 (2019) 20190174 . This criticism appears to be especially suited to our case, as we do not have any alternative hypotheses to Chianina, and we cannot calculate, even if we wish, a probability that the steak is or is not Chianina.

However, it is precisely in our situation that the usefulness of such a minimalist analysis tool as the p-value emerges. The significance test is nothing more than a mathematical-statistical conceptualization of a mental procedure that we all apply in everyday life (and which is not limited to the human species). If we have an idea of how things work in a given context, we expect our experiences to be compatible with that idea; but if we verify that they are not, we will have to decide whether the inconsistency exceeds a certain critical threshold, and if it exceeds it, we will be led discarding that idea as false. Having a feeling that “something is wrong” does not immediately require specifying what that something is; it only requires deciding if an action is needed. The p-value provides a precise numerical measure of the “feeling that something is wrong”.

Another criticism raised against the p-value is that it does not provide any measurement of the phenomenon of our interest (and this too is often a source of misunderstanding). This is true: a calculation of p-value may lead to a decision about the existence of some effect, not about its magnitude. But in our case the prosecutor had indeed asked what was the evidence that the steak was not Chianina; he had not asked to specify how much it was different from a Chianina beef cut. Fisher had been explicit about the epistemological status of the test: “Though, recognizable as a psychological condition of reluctance, or resistance to the acceptance of a proposition, the feeling induced by a test of significance has an objective basis in that the probability statement on which it is based is a fact communicable to, and verifiable by, other rational minds. The level of significance in such cases fulfills the conditions of a measure of the rational grounds for the disbelief it engenders. It is more primitive, or elemental than, and does not justify, any exact probability statement about the proposition”[10] ibid..

In conclusion, let’s not get too confused by the growing hysteria about p-value and test of significance. It is kind of like someone is trying to get us to throw the hammer away because people with that cause little disasters, and especially because a hammer is useless to turn a screw. The p-value is actually the first statistical tool that we can propose to those who pretend to change the current state of knowledge, for example when someone advances new miraculous cures, or, as in our case, argues that the steak is not Chianina. The first experimental indication that any claim can be sensible is when the results of controlled tests are far from appearing random, and the significance test is perfectly suited for this purpose. The important thing, if anything, would be knowing how to use it appropriately (and it would not be so difficult if the several tribes of the statisticians were not engaged in a perennial war[11]Mayo, D.G. 2018. Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge: Cambridge University Press).

References

References
1, 7 “The force with which such a conclusion is supported is logically that of the simple disjunction: Either an exceptionally rare chance has occurred, or the theory of random distribution is not true”. R. A. Fisher. Statistical Methods and Scientific Inference, 2nd edition. Edinburgh: Oliver and Boyd, 1959
2 il culmine dell’assalto, che in effetti è in corso da un paio di decenni, è rappresentato, al momento, da un commento-manifesto pubblicato su Nature intitolato “Eliminiamo la significatività statistica” (Amrhein V, Greenland S, McShane B. Retire statistical significance. Nature 567 (2019):305-307), sottoscritto da più di 800 ricercatori, fra i quali molti biostatistici
3 la spiego in dettaglio a pag. 104 del mio libro
4 “Because the p-value is predicated on the null hypothesis being true, it does not give us any information about the alternative hypothesis — the hypothesis we are usually most interested in” Lewis G. H. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biol. Lett.15 (2019) 20190174
5 “Though, recognizable as a psychological condition of reluctance, or resistance to the acceptance of a proposition, the feeling induced by a test of significance has an objective basis in that the probability statement on which it is based is a fact communicable to, and verifiable by, other rational minds. The level of significance in such cases fulfils the conditions of a measure of the rational grounds for the disbelief it engenders. It is more primitive, or elemental than, and does not justify, any exact probability statement about the proposition.” ibid
6, 11 Mayo, D.G. 2018. Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge: Cambridge University Press
8 Amrhein V, Greenland S, McShane B. Retire statistical significance. Nature 567 (2019):305-307
9 Lewis G. H. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biol. Lett.15 (2019) 20190174
10 ibid.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

%d blogger hanno fatto clic su Mi Piace per questo: