Analiza profili DNA wejściowego

Aby zrozumieć różnice technologiczne pomiędzy danymi ChIP opartymi na sekwencjonowaniu i mikromacierzach, najpierw przeanalizowaliśmy profile usieciowanych i sonikowanych fragmentów DNA (DNA wejściowe) wygenerowanych przez mikromacierze (INPUT-chip) i sekwencjonowanie o wysokiej przepustowości (INPUT-seq). Ponieważ profil wejściowego DNA powinien być niezależny od przeciwciała użytego do ChIP, to porównanie może dać wgląd w specyficzne różnice pomiędzy tymi dwoma technologiami profilowania. Uzyskaliśmy dane INPUT-chip z kanału tła naszych dwukanałowych danych mikromacierzy. Podczas gdy ta platforma mikromacierzy wykorzystuje hybrydyzację konkurencyjną, dwa kanały w naszej mikromacierzy Agilent okazały się być stosunkowo niezależne, ponieważ nasycenie w którymkolwiek z kanałów jest bardzo rzadkie. Spośród wszystkich profili INPUT-chip, które wyodrębniliśmy, przedstawiamy tutaj tylko analizę ośmiu reprezentatywnych profili (po dwa z każdego z czterech punktów czasowych rozwoju), ponieważ większość profili INPUT-chip jest bardzo podobna (plik dodatkowy 2: Rysunek S1). Osiem profili INPUT-chip zostało następnie porównanych z dziewięcioma profilami INPUT-seq zebranymi w tym badaniu (plik dodatkowy 1: Tabela S3).

Jedną z najbardziej uderzających obserwacji jest to, że profile INPUT-chip i INPUT-seq wydają się być znacząco różne, mimo że ten sam wejściowy materiał DNA został użyty do hybrydyzacji mikromacierzy i sekwencjonowania (Figura 1). Względna wielkość i lokalizacja pików wydaje się być spójna w profilach INPUT-chip z wielu eksperymentów. Jednakże, wzorce w dziewięciu profilach INPUT-seq wydają się być bardziej zmienne. Możemy wizualnie zidentyfikować wiele regionów, które mają niespójne wzbogacenie sygnału w wielu profilach INPUT-seq (zaznaczone na Rysunku 1a). Przeprowadzono analizę klasteryzacji w celu określenia ilościowego tej obserwacji. Stwierdziliśmy, że wszystkie osiem profili INPUT-chip grupuje się blisko siebie (Rysunek 1b). Wynik ten pokazuje, że rozkład tła DNA mierzony z mikromacierzy i sekwencjonowania o wysokiej przepustowości jest inny. Wszystkie profile INPUT-chip i siedem z dziewięciu profili INPUT-seq korelowały pozytywnie z zawartością GC w genomie na poziomie całego genomu (Figura 1b), jak również wokół miejsc startu transkrypcji (TSS) i miejsc końca transkrypcji (TES) (Figura 1c). Siła korelacji z GC jest wysoce spójna wśród profili INPUT-chip, ale wysoce zmienna wśród profili INPUT-seq (Figura 1b-c i plik dodatkowy 2: Figura S2). W szczególności, profile INPUT-seq uzyskane w E-16-20 h (E16) i E-20-24 h (E20) nie korelują z zawartością GC.

Rysunek 1

Porównanie wejściowych profili DNA uzyskanych przez technologie mikromacierzy i sekwencjonowania. (a) Widok przeglądarki genomu profili wejściowych DNA chromosomu 2R D. melanogaster w różnych stadiach rozwojowych mierzonych za pomocą mikromacierzy (INPUT-chip; niebieski) i sekwencjonowania (INPUT-seq; czerwony). (b) Mapa cieplna podsumowująca współczynnik korelacji Spearmana pomiędzy każdą parą dziewięciu profili INPUT-seq i ośmiu INPUT-chip wraz z zawartością GC w całym genomie. Liczba możliwych do zmapowania odczytów (w milionach) jest zapisana obok nazwy każdego profilu INPUT-seq. (c) Profile średniego sygnału INPUT-seq i INPUT-chip wokół miejsc startu transkrypcji (TSS) i miejsc końca transkrypcji (TES) są w dużej mierze spójne, a ich zmienność wzdłuż tych regionów genomowych generalnie pokrywa się ze zmiennością zawartości GC. (d) Wygenerowaliśmy 11 dodatkowych profili z jednej z próbek INPUT-seq (AM) poprzez podpróbkowanie odczytów w różnych proporcjach (90%,80%,…,10%,5%,1%). Mapa ciepła podsumowująca reprezentację współczynnika korelacji Spearmana pomiędzy każdą parą podpróbkowanych profili INPUT-seq i zawartością GC jest pokazana tutaj. (e) Zależność pomiędzy głębokością sekwencjonowania a pokryciem genomu. Krzywa pokazuje, jak podpróbkowanie odczytów sekwencji (tj. zmniejszenie głębokości sekwencjonowania) wpływa na pokrycie genomowe. Pokrycie genomowe dziewięciu zestawów danych INPUT-seq i naszej mikromacierzy Agilent są również pokazane na wykresie.

Zauważamy również, że INPUT-seq z większą głębokością sekwencjonowania (>4 miliony zmapowanych odczytów) mają tendencję do grupowania się ciaśniej niż te z mniejszą głębokością sekwencjonowania, co sugeruje, że może istnieć związek między głębokością sekwencjonowania a zmiennością wejściowego DNA. Aby przetestować tę hipotezę, wygenerowaliśmy 11 dodatkowych profili INPUT-seq poprzez podpróbkowanie odczytów sekwencjonowania z najgłębiej sekwencjonowanej próbki wejściowego DNA (AdultMale; AM) przy różnych proporcjach próbkowania (Figura 1d i plik dodatkowy 2: Figura S3). Zgodnie z oczekiwaniami, profile o większej głębokości sekwencjonowania mają tendencję do silniejszego grupowania się razem, a ich korelacja ze zmiennością zawartości GC jest bardziej spójna. Jednakże korelacja z zawartością GC staje się znacznie słabsza dopiero przy bardzo małej głębokości sekwencjonowania (<2 mln odczytów; Rysunek 1d). Wskazuje to, że niska głębokość sekwencjonowania nie jest jedynym czynnikiem wpływającym na jakość INPUT-seq. Co więcej, niektóre INPUT-seq o stosunkowo niskiej głębokości sekwencjonowania (E0 i AF, <4 miliony odczytów) mogą dawać spójne profile wejściowego DNA. Sugeruje to, że zmienność INPUT-seq może być również przypisana innym czynnikom eksperymentalnym. Chociaż wymagane są dalsze badania w celu określenia pełnego zakresu czynników doświadczalnych wpływających na zmienność wejściowych bibliotek DNA, mogą na nią wpływać różnice w przygotowaniu próbki (np. różne przygotowanie chromatyny i sonikacja), różnice między seriami sekwencera, różnice między sekwencerami dla tego samego modelu i wiele innych zmiennych w eksperymentach. Wysoka zmienność wśród profili INPUT-seq jest rzeczywiście krytycznym problemem, ponieważ duża zmienność przyczynia się do niestabilności szacowania gęstości w profilu ChIP-seq, co będzie miało wpływ na dalszą analizę danych. Jak zostanie pokazane w kolejnych częściach niniejszej pracy, INPUT-seq z niezwykle słabą korelacją z zawartością GC może wpłynąć na konstrukcję średnich profili w ważnych lokalizacjach genomowych. Dlatego konieczne jest sekwencjonowanie wejściowego DNA do odpowiedniej głębokości i upewnienie się, że uzyskany profil jest zgodny z profilami z podobnych eksperymentów.

Pokrycie genomowe jest kolejnym kluczowym czynnikiem przy wyborze między ChIP-chip i ChIP-seq. Pokrycie genomowe ChIP-chip jest ograniczone przez projekt sondy mikromacierzy, a pokrycie ChIP-seq jest zależne od głębokości sekwencjonowania. Pokrycie genomowe osiągnięte przez naszą mikromacierz Agilent wynosi około 70%. Używając podpróbkowanych danych INPUT-seq, pokazujemy, że INPUT-seq generalnie zapewnia wyższe pokrycie genomowe przy głębokości sekwencjonowania tak niskiej jak milion odczytów. Ten trend skonstruowany z losowo podpróbkowanych danych potwierdza obserwowane pokrycie genomowe pozostałych ośmiu rzeczywistych zestawów danych INPUT-seq (Rysunek 1e).

Porównanie charakterystyki profili

Ponownie porównaliśmy charakterystykę profili ChIP-chip i ChIP-seq. Aby porównać profile generowane przez te dwie technologie, podzieliliśmy genom na nienakładające się biny o wielkości 1 kb i zdefiniowaliśmy poziom wzbogacenia w każdym binie jako średnią stosunku logarytmów kanału IP do kanału wejściowego (szczegóły w sekcji Metody). Rozkład sygnału profilu ChIP określamy jako rozkład wartości wzbogacenia dla wszystkich bloków. Po pierwsze, staraliśmy się scharakteryzować średni stosunek sygnału do szumu dla profili generowanych przez obie technologie. Użyliśmy (obciętej) skośności profilu gęstości sygnału po usunięciu sygnałów z najwyższych i najniższych 5% rozkładu jako miary stosunku sygnału do szumu dla danego profilu. Skośność jest miarą asymetrii rozkładu, a dodatnia skośność wskazuje, że ogon po prawej stronie jest dłuższy, co sugeruje dobry stosunek sygnału do szumu. W prawie wszystkich przypadkach profil ChIP-seq ma wyższą skośność niż odpowiadający mu profil ChIP-chip dla tego samego stanu biologicznego (Figura 2 i plik dodatkowy 1: Tabela S4). Zwracamy uwagę, że różnica skośności zależy od czynnika IP, który może być spowodowany różną jakością przeciwciał i przewagą modyfikacji histonów lub zdarzeń wiążących. Ten sam wniosek można wyciągnąć, nawet jeśli zastosowano inny rozmiar binów (plik dodatkowy 2: Figura S4). Nasze wyniki potwierdziły ogólną obserwację, że ChIP-seq zwykle wytwarza bardziej charakterystyczny profil sygnału niż ChIP-chip.

Rysunek 2

Porównanie charakterystyki profili ChIP-chip i ChIP-seq. Rysunki (a) i (b) podsumowują skośność rozkładów sygnałów wszystkich profili ChIP-chip i ChIP-seq. Profil ChIP o dobrym stosunku sygnału do szumu powinien mieć rozkład sygnału, który jest dodatnio skośny (tj. skośność >0). Wyższa skośność oznacza lepszy stosunek sygnału do szumu. W prawie wszystkich przypadkach, profil ChIP-seq ma wyższą skośność sygnału niż odpowiadający mu profil ChIP-chip. Rysunki (c) i (d) pokazują stosunek liczby i średniej szerokości regionów wzbogacenia zidentyfikowanych przez ChIP-chip i ChIP-seq przy użyciu naszego heurystycznego podejścia (patrz sekcja Metody niniejszej pracy). W prawie wszystkich przypadkach, możemy zidentyfikować większą liczbę i węższe szczyty w profilu ChIP-seq niż odpowiadający mu profil ChIP-chip.

Następnie scharakteryzowaliśmy regiony wzbogacenia w obrębie każdego profilu ChIP. Aby przeprowadzić uczciwe porównanie, chcielibyśmy użyć algorytmu, który wykonuje wywoływanie pików na danych ChIP-seq i ChIP-chip przy użyciu tych samych kryteriów. Obecnie, wiele powszechnie stosowanych algorytmów wywoływania pików jest zaprojektowanych specjalnie do analizy danych ChIP-chip lub ChIP-seq, ale nie obu. Aby przezwyciężyć to ograniczenie, zidentyfikowaliśmy piki zarówno z profili ChIP-chip, jak i ChIP-seq, używając tej samej heurystyki skanowania genomu (patrz sekcja Metody). Nasze wyniki wskazują, że prawie zawsze możemy odkryć większą liczbę pików i węższych pików przy użyciu danych wygenerowanych z ChIP-seq w porównaniu z ChIP-chip podczas analizy tej samej próbki biologicznej, a wniosek ten jest spójny niezależnie od rygorystyczności zastosowanych kryteriów identyfikacji (Figura 2 i plik dodatkowy 2: Figura S5). W praktyce, prawdopodobnie możemy zidentyfikować jeszcze większą liczbę wąskich pików w danych ChIP-seq, jeśli wyraźnie wykorzystamy informacje specyficzne dla pasma w ramach procedury wywoływania pików (oprócz tylko przesunięcia każdego odczytu w kierunku jego 5′ końca o stałą liczbę par zasad), więc obecna analiza zapewnia dolną granicę efektywności ChIP-seq w porównaniu z ChIP-chip. W sumie nasze wyniki pokazują, że ChIP-seq zapewnia wyższą rozdzielczość przestrzenną i stosunek sygnału do szumu.

Odtwarzalność sygnału w całym genomie w ramach i między technologiami

Ponadto oszacowaliśmy odtwarzalność między profilami ChIP-chip i/lub ChIP-seq na poziomie całego genomu (biny 1 kb). Aby uniknąć błędów wynikających z różnic w pokryciu genomu i mapowania sekwencji (Figura 1e), wykluczyliśmy regiony genomowe, które nie zawierają żadnych sond mikromacierzy i regiony o niezwykle wysokiej zmienności w wielu profilach INPUT-seq. Współczynnik korelacji Pearsona, r, został użyty jako miara korelacji, ponieważ jest bardziej czuły niż współczynnik korelacji Spearmana do porównywania ogona dwóch rozkładów sygnału, co jest szczególnie ważne w analizie profili sygnału wzbogacania ChIP. Korelacja między parami replik ChIP-chip i między parami replik ChIP-seq jest generalnie wysoka (mediana r = 0,85 i 0,82, odpowiednio), wskazując, że obie technologie mogą dawać powtarzalne wyniki. Zgodnie z oczekiwaniami, korelacja międzyplatformowa między parami replik profili ChIP-chip i ChIP-seq jest skromniejsza (mediana r = 0,41; Dodatkowy plik 1: Tabela S5). Podobne wnioski można wyciągnąć, nawet jeśli używamy różnych rozmiarów binów do obliczania korelacji międzyprofilowej (plik dodatkowy 2: Figura S6). Reprezentatywny wykres rozrzutu porównujący każdą parę technologii jest pokazany na Rysunku 3b-d. Obserwujemy również dodatnią korelację między skośnością a odtwarzalnością między profilami (plik dodatkowy 2: Figura S7), sugerując, że bardziej czułe przeciwciała mogą wytwarzać bardziej spójne profile między dwiema technologiami.

Rycina 3

Ogólnogenomowa odtwarzalność w obrębie i między profilami replik ChIP-chip i ChIP-seq. (a) Odtwarzalność w skali genomu pomiędzy dwoma profilami była mierzona przez współczynnik korelacji Pearsona, r, pomiędzy ich intensywnościami sygnałów (w 1 kb binach). Zarówno ChIP-chip jak i ChIP-seq mają wysoką odtwarzalność (mediana r≈0.83), podczas gdy odtwarzalność pomiędzy replikami profili ChIP-chip i ChIP-seq jest umiarkowana (mediana r≈0.41). Rysunek ten pokazuje również jeden typowy przykład korelacji w całym genomie pomiędzy biologicznymi replikami (b) ChIP-chip i ChIP-chip, (c) ChIP-seq i ChIP-seq oraz (d) ChIP-chip i ChIP-seq. Lokalnie ważona linia regresji wygładzania rozproszenia (LOESS) jest również pokazana w każdym z tych wykresów.

Konstrukcja średniego profilu sygnału w TSS i TES

Konstrukcja średnich profili sygnału ChIP wokół ważnych cech genomowych, takich jak TSS i TES, jest powszechnym sposobem wizualizacji wzbogacenia sygnału wokół tych cech. Dlatego zbadaliśmy odtwarzalność średnich profili TSS i TES (2 kb w górę i 2 kb w dół) dla każdej pary replikowanych profili ChIP (plik dodatkowy 2: Figura S8). Średnie profile większości par replik są wysoce spójne. Istnieje jednak kilka par, które różnią się znacząco, zwłaszcza profile H3K27Me3 i H3K9Me3 zarówno na etapie E-16-20 h, jak i E-20-24 h (plik dodatkowy 2: Figury S8c i S8g). Bez zewnętrznej walidacji nie można stwierdzić, czy średnie profile sygnałowe generowane przez ChIP-chip czy ChIP-seq są bardziej dokładne. Niemniej jednak, dwie linie dowodów doprowadziły nas do przekonania, że średnie profile sygnałowe z ChIP-chip były bardziej prawdopodobne, aby być dokładne. Po pierwsze, wszystkie trzy replikacje ChIP-chip w tych punktach czasowych miały bardzo spójne średnie profile. Po drugie, średnie profile sygnału ChIP-seq w tych warunkach biologicznych przypominały trend zmienności zawartości GC w TSS i TES (Rysunek 1c). Niezwykle niskie korelacje między zawartością GC a profilami INPUT-seq dla E-16-20 h i E-20-24 h (Figura 1b i plik dodatkowy 2: Figura S2b) skłoniły nas do wysunięcia hipotezy, że obserwowana rozbieżność wynikała z błędnej reprezentacji zmienności zawartości GC przez odpowiednie profile INPUT-seq. Zarówno H3K27Me3 jak i H3K9Me3 są znacznikami represyjnymi, które są zwykle zubożone w TSSs i TESs, więc wszelkie różnice w odejmowaniu tła są prawdopodobnie znacznie bardziej wyraźne niż inne znaczniki histonowe, które mają silne wzbogacenie sygnału w tych cechach genomu. Aby przetestować naszą hipotezę, zastąpiliśmy odpowiednie tło INPUT-seq tłem INPUT-seq z próbki AdultFemale, ponieważ ma ono najwyższą korelację ze zmiennością zawartości GC. Po zastąpieniu, średnie profile sygnału wygenerowane przez ChIP-seq i ChIP-chip na tych dwóch etapach rozwoju zgadzają się (Figura 4 i plik dodatkowy 2: Figura S9). Ten wynik jest uderzający, ponieważ pokazuje, że użycie różnych INPUT-seq jako negatywnej kontroli tego samego profilu ChIP-seq może prowadzić do znacząco różnej interpretacji danych.

Rysunek 4

Ilustracja tego, jak zmienność w profilu INPUT-seq może wpływać na rekonstrukcję średniego profilu sygnału w TSS i TES. Górny panel pokazuje średnie profile sygnału w TSS i TES dla profili ChIP-chip i ChIP-seq dla H3K27Me3 w E-16-20 h. Te profile ChIP-chip i ChIP-seq różnią się dość znacznie, a profile ChIP-seq przypominają profil zmienności zawartości GC (Figura 1c). Następnie ponownie przetworzyliśmy próbki ChIP-seq, używając INPUT-seq w AdultFemale jako tła do normalizacji, ponieważ ten profil ma silną korelację ze zmiennością zawartości GC, co bardziej prawdopodobnie odzwierciedla rzeczywiste specyficzne dla technologii błędy naszej platformy sekwencjonowania. Po tej procedurze, średnie profile sygnału ChIP-chip i ChIP-seq wyglądają znacznie bardziej podobnie, wskazując, że oryginalny INPUT-seq przy E-16-20 h nie wychwytuje odpowiednio specyficznej dla technologii zmienności w tych miejscach.

Efekt użycia różnych profili wejściowych w normalizacji danych ChIP-seq

Zaobserwowawszy wpływ INPUT-seq w konstruowaniu średnich profili TSS i TES, zapytaliśmy, czy użycie różnych profili INPUT-seq do normalizacji tła znacząco wpływa na wyniki wywoływania pików ChIP-seq. Użyliśmy SPP do wywołania pików dla 10 naszych próbek ChIP-seq (CBP, H3K9Ac, H3K9Me3, H3K27Ac, H3K27Me3 w E16-20 h i E20-24 h), gdzie każdy profil ChIP został znormalizowany względem czterech różnych INPUT-seq jako tła (dane wejściowe z dopasowanego punktu czasowego, AdultFemale, AdultMale i E-4-8 h). Te profile INPUT-seq zostały wybrane, ponieważ mają różną głębokość sekwencjonowania i korelację z zawartością GC (Figura 1b). Porównanie liczby pików i mediany szerokości pików pokazane jest na Rysunku 5. Zaobserwowaliśmy dużą różnicę w liczbie pików wywoływanych dla dowolnej próbki ChIP-seq, gdy różne profile INPUT-seq były używane jako tło. W skrajnym przypadku (E-16-24 h, H3K9Me3 ChIP), liczba pików może zmieniać się od zera do prawie 40 000 przy FDR równym 5% (Rysunek 5a). Ogólnie rzecz biorąc, więcej statystycznie istotnych pików (FDR < 0,05) wykryto podczas normalizacji względem głęboko zsekwencjonowanej próbki wejściowej DNA (AdultMale i E-4-8 h w tym eksperymencie), chociaż bezwzględna wielkość różnicy różni się pomiędzy zestawami danych ChIP. Różnica w liczbie pików prawdopodobnie wskazuje na różnicę w mocy wykrywania. Dla każdej próbki ChIP obliczyliśmy proporcję nakładania się każdej pary zestawów pików wygenerowanych przez cztery różne wejściowe tła DNA (tj. sześć porównań na próbkę ChIP). Stwierdziliśmy, że średnia proporcja nakładania się w odniesieniu do mniejszego zestawu pików wynosi około 95%, wskazując, że różnice w liczbie wykrytych pików są prawdopodobnie spowodowane różną mocą do wywoływania słabszych pików. Zaobserwowaliśmy, że silne piki (tj. te z niskim FDR wykrywania) były częściej wykrywane w różnych zestawach pików (patrz plik dodatkowy 2: Rysunek S10 dla przykładu). Na medianę szerokości wykrytych pików ma również wpływ użycie różnych INPUT-seq jako tła (Rysunek 5b). Analiza ta wykazała, że normalizacja przy użyciu różnych INPUT-seq może mieć znaczący, i niedoceniany, wpływ na wywoływanie pików.

Rycina 5

Effect of normalization with different INPUT-seq on ChIP-seq peak calling. Porównaliśmy liczbę pików (a) i medianę szerokości piku (b) 10 próbek ChIP-seq (CBP, H3K9Ac, H3K9Me3, H3K27Ac, H3K27Me3 w E16-20 h i E20-24 h), gdzie każda z nich została znormalizowana względem czterech różnych wejściowych próbek DNA (dane wejściowe dla z dopasowanego punktu czasowego, AdultFemale, AdultMale i E-4-8 h). Wywoływanie pików przeprowadzono za pomocą SPP przy użyciu tych samych parametrów. Wyraźnie widać, że na detekcję pików ma znaczący wpływ użycie innej wejściowej biblioteki DNA jako kontroli tła. Generalnie, więcej pików jest identyfikowanych jako statystycznie istotne (FDR < 0.05), gdy normalizuje się z biblioteką INPUT-seq o większej głębokości sekwencjonowania, chociaż wielkość różnic różni się w różnych zestawach danych ChIP.

Ocena zmienności wynikającej z zastosowania różnych peak callerów

Inne ważne źródło zmienności w analizie profili ChIP-chip i ChIP-seq pochodzi z zastosowania różnych algorytmów analizy. Do tej pory opracowano wiele publicznie dostępnych narzędzi do analizy ChIP-chip i ChIP-seq, a wszystkie z nich wykorzystują różne metody przesuwania znaczników, normalizacji profilu, wygładzania, identyfikacji pików i obliczania współczynnika fałszywego odkrycia. Nie jest zatem zbyt zaskakujące, że różne narzędzia do wywoływania pików mogą generować całkiem odmienne wyniki w zakresie identyfikacji miejsc wiązania, szczególnie gdy mamy do czynienia z pikami o słabych sygnałach. Wykorzystując nasze kompendium danych ChIP-chip i ChIP-seq, mogliśmy ocenić, jak wiele różnic w identyfikacji pików można przypisać zastosowaniu różnych technologii profilowania i wykorzystaniu różnych peak callerów. W tym badaniu, przeanalizowaliśmy nasze profile ChIP-chip używając dwóch wywoływaczy pików: MA2C i Splitter i analizowaliśmy nasze profile ChIP-seq używając kolejnych dwóch peak callerów: MACS i SPP (patrz plik dodatkowy 1: Tabela S8). Te peak callery zostały wybrane, ponieważ są szeroko stosowane, publicznie dostępne i ogólnie wykazują dobrą wydajność w poprzednich badaniach porównawczych. Obliczyliśmy nakładanie się 1000 szczytów czterech czynników (CBP, H3K4Me1, H3K4Me3 i H3K27Me3) na wielu etapach rozwoju. Cztery czynniki IP zostały wybrane jako reprezentatywne profile zawierające szerokie piki (CBP i H3K27Me3) i wąskie piki (H3K4Me1 i H3K4Me3). Tutaj przedstawiamy tylko wyniki porównania 1000 szczytów, ponieważ jest to biologicznie uzasadniona liczba miejsc wzbogacenia o wysokiej wiarygodności w tych profilach. Ogólny wniosek z tej analizy jest solidny w odniesieniu do różnych progów wywoływania pików (plik dodatkowy 2: Figura S11). Zgodność między dwoma zestawami pików była mierzona średnią proporcją nakładających się pików. Jak pokazano na Rysunku 6, porównania oparte na profilach H3K4Me1 i H3K4Me3 przyniosły oczekiwane wyniki, w których zgodność wewnątrzplatformowa jest wyższa niż zgodność międzyplatformowa (tj. zestawy pików wygenerowane przez dwie osoby wywołujące piki na tym samym profilu są bardziej zgodne niż zestawy pików wygenerowane przez dwie osoby wywołujące piki na dwóch profilach). Jednakże zgodność wewnątrzplatformowa może być tak niska jak zgodność międzyplatformowa podczas analizy profili H3K27Me3 i CBP, co sugeruje, że zróżnicowanie w algorytmach wywoływania pików może być tak duże jak stosowanie różnych technologii profilowania dla niektórych czynników IP. Obserwacja, że obecne algorytmy wywoływania szczytów dają mniej zgodne wyniki dla profili ChIP z szerokimi domenami (CBP i H3K27Me3) niż te z ostrymi szczytami (H3K4Me1 i H3K4Me3) może sugerować, że są one mniej spójne w identyfikacji szerokich regionów wzbogacania, co może być interesującym tematem do dalszych badań.

Rysunek 6

Zmienność wynikająca z algorytmów wywoływania pików. Porównaliśmy średni odsetek nakładających się pików zidentyfikowanych przez dwa algorytmy wywołujące piki ChIP-seq (czerwony) i dwa algorytmy wywołujące piki ChIP-chip (niebieski), odpowiednio dla profili ChIP-seq i ChIP-chip. Co ciekawe, różnice w zgodności identyfikacji pików wynikające z zastosowania różnych algorytmów mogą być tak duże jak różnice technologiczne, co jest szczególnie wyraźne w porównaniu profili CBP i H3K27Me3.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.