Przejdź do głównej zawartości

Popularne formaty plików w bioinformatyce

W bioinformatyce dane są przechowywane i przesyłane w różnych specjalistycznych formatach plików. Zrozumienie tych formatów jest kluczowe dla efektywnego zarządzania danymi i ich analizy. Ta strona zawiera przegląd najczęściej spotykanych formatów plików.

Na tej stronie omowione są m.in. pliki FASTQ, BAM oraz VCF. Pliki FASTQ służą do tworzenia pliku BAM, który jest następnie używany do generowania pliku VCF — punktu wyjścia do późniejszej analizy eksperckiej.

Format FASTQ

FASTQ to standardowy format pliku do przechowywania surowych wyników z wysokoprzepustowych urządzeń sekwencjonujących.

Cel:

Pliki FASTQ służą jako podstawowy format przechowywania surowych danych sekwencjonowania bezpośrednio z maszyn sekwencjonujących. Stanowią punkt wyjścia większości analiz bioinformatycznych i zawierają zarówno dane sekwencyjne, jak i informacje o jakości potrzebne do dalszego przetwarzania.

Pliki FASTQ są ​​zazwyczaj formatem, w którym dane są udostępniane między laboratoriami w celu odtworzenia analiz genetycznych, ponieważ są one zazwyczaj podstawowymi danymi wejściowymi dla procesów bioinformatycznych.

Kluczowe cechy:

  • Rozszerzenie pliku: .fastq lub .fq (zwykle skompresowane jako .fastq.gz lub .fq.gz)
  • Kompresja: Prawie zawsze skompresowane w celu zaoszczędzenia miejsca na dysku
  • Czytelność dla ludzi: Niełatwo czytelne dla ludzi w surowej formie
  • Rozmiar: W przypadku sekwencjonowania ludzkiego eksomu, zwykle kilka GB, nawet po skompresowaniu
  • Dystrybucja: Zwykle dystrybuowany parami (R1 i R2 w nazwach plików), co wskazuje na sekwencjonowanie typu paired end

Zawarte dane:

Pliki FASTQ zawierają:

  1. Identyfikator sekwencji (linia nagłówka zaczynająca się od „@”)
  2. Surowa sekwencja (nukleotydy jako A, C, G, T, N)
  3. Linia separatora (zaczynająca się od „+”)
  4. Wyniki jakości (zakodowane jako znaki ASCII) dla każdego nukleotyd

@SRR001666.1 HWUSI-EAS1513_0001:1:1:1429:1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''((((+))%%%++)(%%%%).1*-+*''))**55CCF>>>>>>CCCCCCC65

Wyniki jakości przedstawiają prawdopodobieństwo błędu sekwencjonowania dla każdej zasady, zakodowane w formacie ASCII.

Aby uzyskać bardziej szczegółowe informacje na temat formatu FASTQ, zobacz artykuł Wikipedii na temat formatu FASTQ.

Format BAM

BAM (Binary Alignment Map) to skompresowana binarna wersja formatu SAM używana do przechowywania dopasowań sekwencji.

Cel:

Pliki BAM przechowują odczyty sekwencjonowania z pliku FASTQ, zmapowane na genom referencyjny. Są one niezbędne do wywoływania wariantów, analizy pokrycia i wizualizacji danych sekwencjonowania w ich kontekście genomicznym. Format binarny umożliwia wydajne przechowywanie i szybki dostęp do określonych regionów genomicznych poprzez indeksowanie.

Główne cechy:

  • Rozszerzenie pliku: .bam
  • Czytelność dla ludzi: Nieczytelny dla ludzi (format binarny)
  • Plik towarzyszący: Zwykle sparowany z plikiem indeksu .bai
  • Rozmiar: Zwykle kilka GB dla ludzkiego eksomu
  • Genom referencyjny: Dopasowany do konkretnych wersji genomu (np. GRCh38)

Zawarte dane:

Pliki BAM zawierają:

  • Sekwencje odczytu dopasowane do genomu referencyjnego
  • Wyniki jakości dla każdej zasady
  • Informacje o dopasowaniu
  • Opcjonalne pola metadanych

Pliki BAM wymagają użycia specjalistycznych narzędzi do przeglądania i manipulowania, najczęściej:

  • Samtools do operacji wiersza poleceń
  • IGV (Integrative Genomics Viewer) do wizualizacji

Wersje genomu referencyjnego

Pliki BAM są dopasowane do konkretnych wersji genomu referencyjnego. Obecnie najczęściej używaną wersją ludzkiego genomu referencyjnego jest GRCh38 (znana również jako hg38). Wcześniejsze wersje, takie jak GRCh37 (hg19), są nadal używane w niektórych kontekstach.

Konwersja do FASTQ

Można wyodrębnić oryginalne sekwencje FASTQ z pliku BAM, co może być przydatne do ponownego dopasowania lub innych analiz. Można to zrobić za pomocą narzędzi takich jak Samtools lub Picard.

Format CRAM

CRAM to alternatywa dla BAM, która zapewnia dodatkową kompresję w celu zmniejszenia rozmiarów plików.

Cel:

CRAM został opracowany specjalnie w celu rozwiązania rosnących wyzwań związanych z przechowywaniem danych genomicznych. Jego głównym celem jest zapewnienie bardziej wydajnego pod względem przestrzeni formatu do długoterminowej archiwizacji wyrównanych danych sekwencyjnych przy jednoczesnym zachowaniu możliwości rekonstrukcji oryginalnych informacji w razie potrzeby.

Kluczowe cechy:

  • Rozszerzenie pliku: .cram
  • Czytelność dla ludzi: Nieczytelny dla ludzi (format binarny)
  • Plik towarzyszący: Zwykle sparowany z plikiem indeksu .crai
  • Zależność od odniesienia: Wymaga dostępu do sekwencji odniesienia używanej do dopasowania
  • Rozmiar: Znacznie mniejszy niż pliki BAM (zwykle o 30-60% mniejszy)

Zawarte dane:

Podobnie jak pliki BAM, CRAM zawiera wyrównane dane sekwencyjne, ale wykorzystuje kompresję opartą na odniesieniu do sekwencji referencyjnej w celu uzyskania mniejszych rozmiarów plików.

Zagadnienia dotyczące użycia:

  • Najlepiej używać do archiwizacji danych
  • Niezalecane do dystrybucji danych ze względu na zależność sekwencji referencyjnej
  • Wymaga specjalistycznych narzędzi podobnych do tych używanych do plików BAM
  • Mogą występować problemy ze zgodnością z niektórymi starszymi programami

Format VCF (format wywołania wariantu)

VCF to standardowy format przechowywania danych o zmienności genetycznej, takich jak SNP, insercje, delecje i warianty strukturalne.

VCF to format, w którym dane o wariantach są udostępniane między laboratoriami w celu wsparcia interpretacji eksperckiej, ponieważ stanowią one końcowy wynik wielu procesów bioinformatycznych.

Cel:

Pliki VCF przechowują informacje o wariantach genomicznych w odniesieniu do genomu referencyjnego. Służą jako standardowy format wymiany dla wywoływania wariantów, adnotacji i analizy. VCF umożliwia badaczom kategoryzowanie, filtrowanie i analizowanie wariantów genetycznych w populacjach lub u poszczególnych osób.

Kluczowe cechy:

  • Rozszerzenie pliku: .vcf (często skompresowane jako .vcf.gz, czasami z innym plikiem, indeksem .vcf.gz.tbi)
  • Czytelność dla człowieka: Częściowo czytelne dla ludzi, ale złożone
  • Przyjazność dla maszyn: Nieco trudne do automatycznego przetwarzania ze względu na złożoność
  • Rozmiar: Znacznie mniejsze niż surowe dane sekwencyjne; różni się znacznie w zależności od zawartości wariantu

Zawarte dane:

Pliki VCF zawierają:

  • Sekcję nagłówka z metadanymi i opisami adnotacji
  • Sekcję danych z informacjami o wariancie

Każdy wariant zawiera informacje o pozycji, allelach referencyjnych i alternatywnych, metrykach jakości i opcjonalnych adnotacjach. Pliki VCF mogą zawierać dane dla pojedynczej próbki lub wielu próbek, co umożliwia analizę wariantów na poziomie populacji.

Uwagi dotyczące użycia:

  • Mogą reprezentować małe warianty (SNP, indels) lub duże warianty strukturalne
  • Mogą zawierać dane dla pojedynczej próbki lub wielu próbek
  • Mogą zawierać różne adnotacje dotyczące wpływu funkcjonalnego, częstości populacji itp.
  • Mogą być wyświetlane w oprogramowaniu arkusza kalkulacyjnego, takim jak Excel, ale nie jest to idealne rozwiązanie ze względu na problemy z formatowaniem
  • Specjalistyczne przeglądarki, takie jak IGV, zapewniają lepszą wizualizację

Format BED

BED (Browser Extensible Data) to elastyczny, zorientowany liniowo format używany do definiowania interesujących regionów genomicznych.

Cel:

Pliki BED definiują określone interwały genomiczne dla różnych zastosowań, w tym regionów przechwytywania ukierunkowanego sekwencjonowania, adnotacji genów i ścieżek wizualizacji. Są one szczególnie ważne w eksperymentach ukierunkowanego sekwencjonowania w celu określenia, które regiony genomu zostały konkretnie przechwycone i przeanalizowane.

Kluczowe cechy:

  • Rozszerzenie pliku: .bed
  • Czytelność dla człowieka: Łatwo czytelny (format tekstu rozdzielonego tabulatorami)
  • Przyjazny dla maszyn: Prosty format, który jest łatwy do analizy i generowania
  • Rozmiar: Zazwyczaj bardzo mały (kilobajty do kilku megabajtów)

Zawarte dane:

Pliki BED składają się z pól oddzielonych tabulatorami, przy czym pierwsze trzy pola są obowiązkowe:

  1. Nazwa chromosomu (chrom)
  2. Pozycja początkowa (chromStart, oparta na 0)
  3. Pozycja końcowa (chromEnd)

Możliwe są również dodatkowe pola opcjonalne.

Zastosowanie w sekwencjonowaniu ukierunkowanym:

W sekwencjonowaniu ukierunkowanym (takim jak sekwencjonowanie eksomu lub panelu genowego) pliki BED definiują regiony, do których sondy przechwytujące zostały zaprojektowane. Informacje te są kluczowe dla:

  • Obliczania pokrycia w regionach docelowych
  • Oceny wydajności przechwytywania
  • Ograniczania wywoływania wariantów do zamierzonych regionów
  • Interpretowania wyników w kontekście tego, co zostało faktycznie ukierunkowane

Przykładowy wpis w pliku BED:

chr7 127471196 127472363
chr7 127472363 127473530

Pliki BED można łatwo manipulować za pomocą narzędzi takich jak BEDTools i przeglądać w przeglądarkach genomu takich jak UCSC lub IGV.