- Analiza profili DNA wejściowego
- Porównanie charakterystyki profili
- Odtwarzalność sygnału w całym genomie w ramach i między technologiami
- Konstrukcja średniego profilu sygnału w TSS i TES
- Efekt użycia różnych profili wejściowych w normalizacji danych ChIP-seq
- Ocena zmienności wynikającej z zastosowania różnych peak callerów
Analiza profili DNA wejściowego
Aby zrozumieć różnice technologiczne pomiędzy danymi ChIP opartymi na sekwencjonowaniu i mikromacierzach, najpierw przeanalizowaliśmy profile usieciowanych i sonikowanych fragmentów DNA (DNA wejściowe) wygenerowanych przez mikromacierze (INPUT-chip) i sekwencjonowanie o wysokiej przepustowości (INPUT-seq). Ponieważ profil wejściowego DNA powinien być niezależny od przeciwciała użytego do ChIP, to porównanie może dać wgląd w specyficzne różnice pomiędzy tymi dwoma technologiami profilowania. Uzyskaliśmy dane INPUT-chip z kanału tła naszych dwukanałowych danych mikromacierzy. Podczas gdy ta platforma mikromacierzy wykorzystuje hybrydyzację konkurencyjną, dwa kanały w naszej mikromacierzy Agilent okazały się być stosunkowo niezależne, ponieważ nasycenie w którymkolwiek z kanałów jest bardzo rzadkie. Spośród wszystkich profili INPUT-chip, które wyodrębniliśmy, przedstawiamy tutaj tylko analizę ośmiu reprezentatywnych profili (po dwa z każdego z czterech punktów czasowych rozwoju), ponieważ większość profili INPUT-chip jest bardzo podobna (plik dodatkowy 2: Rysunek S1). Osiem profili INPUT-chip zostało następnie porównanych z dziewięcioma profilami INPUT-seq zebranymi w tym badaniu (plik dodatkowy 1: Tabela S3).
Jedną z najbardziej uderzających obserwacji jest to, że profile INPUT-chip i INPUT-seq wydają się być znacząco różne, mimo że ten sam wejściowy materiał DNA został użyty do hybrydyzacji mikromacierzy i sekwencjonowania (Figura 1). Względna wielkość i lokalizacja pików wydaje się być spójna w profilach INPUT-chip z wielu eksperymentów. Jednakże, wzorce w dziewięciu profilach INPUT-seq wydają się być bardziej zmienne. Możemy wizualnie zidentyfikować wiele regionów, które mają niespójne wzbogacenie sygnału w wielu profilach INPUT-seq (zaznaczone na Rysunku 1a). Przeprowadzono analizę klasteryzacji w celu określenia ilościowego tej obserwacji. Stwierdziliśmy, że wszystkie osiem profili INPUT-chip grupuje się blisko siebie (Rysunek 1b). Wynik ten pokazuje, że rozkład tła DNA mierzony z mikromacierzy i sekwencjonowania o wysokiej przepustowości jest inny. Wszystkie profile INPUT-chip i siedem z dziewięciu profili INPUT-seq korelowały pozytywnie z zawartością GC w genomie na poziomie całego genomu (Figura 1b), jak również wokół miejsc startu transkrypcji (TSS) i miejsc końca transkrypcji (TES) (Figura 1c). Siła korelacji z GC jest wysoce spójna wśród profili INPUT-chip, ale wysoce zmienna wśród profili INPUT-seq (Figura 1b-c i plik dodatkowy 2: Figura S2). W szczególności, profile INPUT-seq uzyskane w E-16-20 h (E16) i E-20-24 h (E20) nie korelują z zawartością GC.
Zauważamy również, że INPUT-seq z większą głębokością sekwencjonowania (>4 miliony zmapowanych odczytów) mają tendencję do grupowania się ciaśniej niż te z mniejszą głębokością sekwencjonowania, co sugeruje, że może istnieć związek między głębokością sekwencjonowania a zmiennością wejściowego DNA. Aby przetestować tę hipotezę, wygenerowaliśmy 11 dodatkowych profili INPUT-seq poprzez podpróbkowanie odczytów sekwencjonowania z najgłębiej sekwencjonowanej próbki wejściowego DNA (AdultMale; AM) przy różnych proporcjach próbkowania (Figura 1d i plik dodatkowy 2: Figura S3). Zgodnie z oczekiwaniami, profile o większej głębokości sekwencjonowania mają tendencję do silniejszego grupowania się razem, a ich korelacja ze zmiennością zawartości GC jest bardziej spójna. Jednakże korelacja z zawartością GC staje się znacznie słabsza dopiero przy bardzo małej głębokości sekwencjonowania (<2 mln odczytów; Rysunek 1d). Wskazuje to, że niska głębokość sekwencjonowania nie jest jedynym czynnikiem wpływającym na jakość INPUT-seq. Co więcej, niektóre INPUT-seq o stosunkowo niskiej głębokości sekwencjonowania (E0 i AF, <4 miliony odczytów) mogą dawać spójne profile wejściowego DNA. Sugeruje to, że zmienność INPUT-seq może być również przypisana innym czynnikom eksperymentalnym. Chociaż wymagane są dalsze badania w celu określenia pełnego zakresu czynników doświadczalnych wpływających na zmienność wejściowych bibliotek DNA, mogą na nią wpływać różnice w przygotowaniu próbki (np. różne przygotowanie chromatyny i sonikacja), różnice między seriami sekwencera, różnice między sekwencerami dla tego samego modelu i wiele innych zmiennych w eksperymentach. Wysoka zmienność wśród profili INPUT-seq jest rzeczywiście krytycznym problemem, ponieważ duża zmienność przyczynia się do niestabilności szacowania gęstości w profilu ChIP-seq, co będzie miało wpływ na dalszą analizę danych. Jak zostanie pokazane w kolejnych częściach niniejszej pracy, INPUT-seq z niezwykle słabą korelacją z zawartością GC może wpłynąć na konstrukcję średnich profili w ważnych lokalizacjach genomowych. Dlatego konieczne jest sekwencjonowanie wejściowego DNA do odpowiedniej głębokości i upewnienie się, że uzyskany profil jest zgodny z profilami z podobnych eksperymentów.
Pokrycie genomowe jest kolejnym kluczowym czynnikiem przy wyborze między ChIP-chip i ChIP-seq. Pokrycie genomowe ChIP-chip jest ograniczone przez projekt sondy mikromacierzy, a pokrycie ChIP-seq jest zależne od głębokości sekwencjonowania. Pokrycie genomowe osiągnięte przez naszą mikromacierz Agilent wynosi około 70%. Używając podpróbkowanych danych INPUT-seq, pokazujemy, że INPUT-seq generalnie zapewnia wyższe pokrycie genomowe przy głębokości sekwencjonowania tak niskiej jak milion odczytów. Ten trend skonstruowany z losowo podpróbkowanych danych potwierdza obserwowane pokrycie genomowe pozostałych ośmiu rzeczywistych zestawów danych INPUT-seq (Rysunek 1e).
Porównanie charakterystyki profili
Ponownie porównaliśmy charakterystykę profili ChIP-chip i ChIP-seq. Aby porównać profile generowane przez te dwie technologie, podzieliliśmy genom na nienakładające się biny o wielkości 1 kb i zdefiniowaliśmy poziom wzbogacenia w każdym binie jako średnią stosunku logarytmów kanału IP do kanału wejściowego (szczegóły w sekcji Metody). Rozkład sygnału profilu ChIP określamy jako rozkład wartości wzbogacenia dla wszystkich bloków. Po pierwsze, staraliśmy się scharakteryzować średni stosunek sygnału do szumu dla profili generowanych przez obie technologie. Użyliśmy (obciętej) skośności profilu gęstości sygnału po usunięciu sygnałów z najwyższych i najniższych 5% rozkładu jako miary stosunku sygnału do szumu dla danego profilu. Skośność jest miarą asymetrii rozkładu, a dodatnia skośność wskazuje, że ogon po prawej stronie jest dłuższy, co sugeruje dobry stosunek sygnału do szumu. W prawie wszystkich przypadkach profil ChIP-seq ma wyższą skośność niż odpowiadający mu profil ChIP-chip dla tego samego stanu biologicznego (Figura 2 i plik dodatkowy 1: Tabela S4). Zwracamy uwagę, że różnica skośności zależy od czynnika IP, który może być spowodowany różną jakością przeciwciał i przewagą modyfikacji histonów lub zdarzeń wiążących. Ten sam wniosek można wyciągnąć, nawet jeśli zastosowano inny rozmiar binów (plik dodatkowy 2: Figura S4). Nasze wyniki potwierdziły ogólną obserwację, że ChIP-seq zwykle wytwarza bardziej charakterystyczny profil sygnału niż ChIP-chip.
Następnie scharakteryzowaliśmy regiony wzbogacenia w obrębie każdego profilu ChIP. Aby przeprowadzić uczciwe porównanie, chcielibyśmy użyć algorytmu, który wykonuje wywoływanie pików na danych ChIP-seq i ChIP-chip przy użyciu tych samych kryteriów. Obecnie, wiele powszechnie stosowanych algorytmów wywoływania pików jest zaprojektowanych specjalnie do analizy danych ChIP-chip lub ChIP-seq, ale nie obu. Aby przezwyciężyć to ograniczenie, zidentyfikowaliśmy piki zarówno z profili ChIP-chip, jak i ChIP-seq, używając tej samej heurystyki skanowania genomu (patrz sekcja Metody). Nasze wyniki wskazują, że prawie zawsze możemy odkryć większą liczbę pików i węższych pików przy użyciu danych wygenerowanych z ChIP-seq w porównaniu z ChIP-chip podczas analizy tej samej próbki biologicznej, a wniosek ten jest spójny niezależnie od rygorystyczności zastosowanych kryteriów identyfikacji (Figura 2 i plik dodatkowy 2: Figura S5). W praktyce, prawdopodobnie możemy zidentyfikować jeszcze większą liczbę wąskich pików w danych ChIP-seq, jeśli wyraźnie wykorzystamy informacje specyficzne dla pasma w ramach procedury wywoływania pików (oprócz tylko przesunięcia każdego odczytu w kierunku jego 5′ końca o stałą liczbę par zasad), więc obecna analiza zapewnia dolną granicę efektywności ChIP-seq w porównaniu z ChIP-chip. W sumie nasze wyniki pokazują, że ChIP-seq zapewnia wyższą rozdzielczość przestrzenną i stosunek sygnału do szumu.
Odtwarzalność sygnału w całym genomie w ramach i między technologiami
Ponadto oszacowaliśmy odtwarzalność między profilami ChIP-chip i/lub ChIP-seq na poziomie całego genomu (biny 1 kb). Aby uniknąć błędów wynikających z różnic w pokryciu genomu i mapowania sekwencji (Figura 1e), wykluczyliśmy regiony genomowe, które nie zawierają żadnych sond mikromacierzy i regiony o niezwykle wysokiej zmienności w wielu profilach INPUT-seq. Współczynnik korelacji Pearsona, r, został użyty jako miara korelacji, ponieważ jest bardziej czuły niż współczynnik korelacji Spearmana do porównywania ogona dwóch rozkładów sygnału, co jest szczególnie ważne w analizie profili sygnału wzbogacania ChIP. Korelacja między parami replik ChIP-chip i między parami replik ChIP-seq jest generalnie wysoka (mediana r = 0,85 i 0,82, odpowiednio), wskazując, że obie technologie mogą dawać powtarzalne wyniki. Zgodnie z oczekiwaniami, korelacja międzyplatformowa między parami replik profili ChIP-chip i ChIP-seq jest skromniejsza (mediana r = 0,41; Dodatkowy plik 1: Tabela S5). Podobne wnioski można wyciągnąć, nawet jeśli używamy różnych rozmiarów binów do obliczania korelacji międzyprofilowej (plik dodatkowy 2: Figura S6). Reprezentatywny wykres rozrzutu porównujący każdą parę technologii jest pokazany na Rysunku 3b-d. Obserwujemy również dodatnią korelację między skośnością a odtwarzalnością między profilami (plik dodatkowy 2: Figura S7), sugerując, że bardziej czułe przeciwciała mogą wytwarzać bardziej spójne profile między dwiema technologiami.
Konstrukcja średniego profilu sygnału w TSS i TES
Konstrukcja średnich profili sygnału ChIP wokół ważnych cech genomowych, takich jak TSS i TES, jest powszechnym sposobem wizualizacji wzbogacenia sygnału wokół tych cech. Dlatego zbadaliśmy odtwarzalność średnich profili TSS i TES (2 kb w górę i 2 kb w dół) dla każdej pary replikowanych profili ChIP (plik dodatkowy 2: Figura S8). Średnie profile większości par replik są wysoce spójne. Istnieje jednak kilka par, które różnią się znacząco, zwłaszcza profile H3K27Me3 i H3K9Me3 zarówno na etapie E-16-20 h, jak i E-20-24 h (plik dodatkowy 2: Figury S8c i S8g). Bez zewnętrznej walidacji nie można stwierdzić, czy średnie profile sygnałowe generowane przez ChIP-chip czy ChIP-seq są bardziej dokładne. Niemniej jednak, dwie linie dowodów doprowadziły nas do przekonania, że średnie profile sygnałowe z ChIP-chip były bardziej prawdopodobne, aby być dokładne. Po pierwsze, wszystkie trzy replikacje ChIP-chip w tych punktach czasowych miały bardzo spójne średnie profile. Po drugie, średnie profile sygnału ChIP-seq w tych warunkach biologicznych przypominały trend zmienności zawartości GC w TSS i TES (Rysunek 1c). Niezwykle niskie korelacje między zawartością GC a profilami INPUT-seq dla E-16-20 h i E-20-24 h (Figura 1b i plik dodatkowy 2: Figura S2b) skłoniły nas do wysunięcia hipotezy, że obserwowana rozbieżność wynikała z błędnej reprezentacji zmienności zawartości GC przez odpowiednie profile INPUT-seq. Zarówno H3K27Me3 jak i H3K9Me3 są znacznikami represyjnymi, które są zwykle zubożone w TSSs i TESs, więc wszelkie różnice w odejmowaniu tła są prawdopodobnie znacznie bardziej wyraźne niż inne znaczniki histonowe, które mają silne wzbogacenie sygnału w tych cechach genomu. Aby przetestować naszą hipotezę, zastąpiliśmy odpowiednie tło INPUT-seq tłem INPUT-seq z próbki AdultFemale, ponieważ ma ono najwyższą korelację ze zmiennością zawartości GC. Po zastąpieniu, średnie profile sygnału wygenerowane przez ChIP-seq i ChIP-chip na tych dwóch etapach rozwoju zgadzają się (Figura 4 i plik dodatkowy 2: Figura S9). Ten wynik jest uderzający, ponieważ pokazuje, że użycie różnych INPUT-seq jako negatywnej kontroli tego samego profilu ChIP-seq może prowadzić do znacząco różnej interpretacji danych.