Ontdekking wijdverbreide misinterpretatie van gen expressie gegevens

Maar vooringenomenheid kan worden verwijderd om valse resultaten eruit te filteren, zeggen onderzoekers.

Tel Aviv – Reproduceerbaarheid van onderzoeksgegevens is een grote uitdaging inexperimentele biologie. Aangezien gegevens gegenereerd door technieken op genomische schaal toenemen in complexiteit, wordt de toestand steeds zorgwekkender.

RNA-seq, één van de meest gebruikte methoden in moderne moleculaire biologie, maakt in één test de gelijktijdige meting mogelijk van het expressieniveau van alle genen in een bepaald monster. Nieuw onderzoek door een groep aan de Tel Aviv Universite identificeert een frequente technische voorkeur voor gegevens gegenereerd door RNA-seq-technologie, wat vaak leidt tot valse resultaten.

De studie werd uitgevoerd door Dr. Shir Mandelbaum, Dr. Zohar Manber, Dr. Orna Elroy-Stein en Dr. Ran Elkon aan de Sackler Faculteit der Geneeskunde van TAU en George S. Wise Faculteit voor Levenswetenschappen en werd gepubliceerd op 12 november in PLOS Biology.

“In de afgelopen jaren is er een groeiend alarm opgetreden over valse resultaten in biologisch onderzoek, soms de reproduceerbaarheid crisis genoemd,” zegt Dr. Elkon, hoofdauteur van de studie.” Deze studie benadrukt het belang van een correcte statistische verwerking van gegevens om het aantal misleidende bevindingen te verminderen.”

Een hoofddoel van RNA-seq-experimenten is het karakteriseren van biologische processen die worden geactiveerd of onderdrukt in reactie op verschillende voorwaarden. De onderzoekers analyseerden tientallen openbaar beschikbare RNA-seq datasets om de cellulaire reacties op verschillende spanningen te profileren.

Tijdens het onderzoek ontdekten de wetenschappers dat bepaalde sets korte of lange genen herhaaldelijk veranderingen vertoonden in het expressie niveau gemeten door een schijnbaar aantal RNA-transcripten van een bepaald gen. Verbaasd over dit terugkerende patroon vroeg het team zich af of dit wel een universele biologische reactie weerspiegelde die gemeenschappelijk is voor verschillende triggers of dat het voortkwam uit een experimentele toestand.

Om deze vraag aan te pakken vergeleken ze gerepliceerde monsters van dezelfde biologische toestand. Verschillen in gen expressie tussen replica kan technische effecten weerspiegelen die geen verband houden met de biologische factor van het experiment. Onverwacht werd hetzelfde patroon waargenomen van met name korte of lange genen die veranderingen in expressie niveau vertoonden in deze vergelijkingen tussen replica. Dit patroon is het resultaat van een technische bias die leek te zijn gekoppeld aan de genlengte, zeggen de onderzoekers.

Belangrijk is dat de TAU-onderzoekers konden aantonen hoe de lengte bias die zij detecteerden in veel RNA-seq datasets leidde tot de valse identificatie van specifieke biologische functies als cellulaire reacties op de geteste omstandigheden.

“Een dergelijke verkeerde interpretatie van de gegevens kan leiden tot volledig misleidende conclusies,” besluit Dr. Elkon.” In de praktijk, laat de studie ook zien hoe deze vertekening uit de gegevens kan worden verwijderd, waardoor valse resultaten worden uitgefilterd met behoud van de biologisch relevante.”

Vertaling: Andre Teirlinck