Wstęp

Kultura materialna późnego chalkolitu w południowym Lewancie kontrastuje jakościowo z kulturą z wcześniejszych i późniejszych okresów w tym samym regionie. Późny chalkolit w Lewancie charakteryzuje się wzrostem gęstości osadnictwa, wprowadzeniem sanktuariów 1 , 2 , 3 , wykorzystaniem ossuariów w pochówkach wtórnych 4 , 5 , a także ekspansją publicznych praktyk rytualnych oraz rozkwitem motywów symbolicznych rzeźbionych i malowane na artefaktach z ceramiki, bazaltu, miedzi i kości słoniowej 6 , 7 , 8 , 9. Imponujące metalowe artefakty z tego okresu, które odzwierciedlają pierwsze znane zastosowanie techniki „traconego wosku” do odlewania miedzi, świadczą o niezwykłych umiejętnościach technicznych ludzi tego okresu 10 , 11 .

Charakterystyczne cechy kulturowe późnego chalkolitu w Lewancie (często związane z kulturą Ghassulian, chociaż termin ten w praktyce nie jest stosowany w regionie Galilei, w którym opiera się niniejsza praca) mają niewiele stylistycznych powiązań z wcześniejszymi lub późniejszymi kulturami materialnymi regionu, co doprowadziło do szeroko zakrojonej debaty na temat pochodzenia ludzi, którzy stworzyli tę kulturę materialną. Jedna z hipotez głosi, że kultura chalkolitu w regionie została częściowo rozprzestrzeniona przez imigrantów z północy (tj. z północnej Mezopotamii), w oparciu o podobieństwa w projektach artystycznych 12 , 13. Inni sugerowali, że lokalna ludność Lewantu była całkowicie odpowiedzialna za rozwój tej kultury i że wszelkie podobieństwa do kultur materialnych na północy wynikają z zapożyczania idei, a nie z przemieszczania się ludzi 2 , 14 , 15 , 16 , 17 , 18 , 19.

Aby zbadać te pytania, zbadaliśmy starożytne DNA ze stanowiska chalkolitycznego w północnym Izraelu, Peqi’in (ryc.  1a ). Ta jaskinia, która ma około 17 m długości i 4,5–8,0 m szerokości (ryc.  1b ), została odkryta podczas budowy drogi w 1995 r. I została uszczelniona przez naturalne procesy podczas lub pod koniec późnego okresu chalkolitu (około 3900 pne) . Wykopaliska archeologiczne ujawniły niezwykłą gamę misternie wykonanych przedmiotów, w tym kielichy, misy i maselnice, a także ponad 200 ossuariów i dzbanów domowych, które zostały przekształcone w ossuaria (największa liczba, jaką kiedykolwiek znaleziono w jednej jaskini), często ozdobione antropomorficznymi wzorami (Rys.  1c ) 20 , 21. Oszacowano, że jaskinia grobowa zawierała do 600 osobników 22 , co czyni ją największym miejscem pochówku, jakie kiedykolwiek zidentyfikowano z okresu późnego chalkolitu w Lewancie. Bezpośrednie datowanie radiowęglowe sugeruje, że jaskinia była używana przez cały późny chalkolit (4500-3900 pne), funkcjonując jako centralne miejsce pochówku w regionie 21 , 23.

Ryc. 1

Tło witryny. a Lokalizacja miejsca, w którym znajduje się jaskinia Peqi’in. b Zdjęcie wnętrza jaskini Peqi’in. Zdjęcie Hila May, dzięki uprzejmości Centrum Ewolucji Człowieka i Biohistorii im. Dana Davida. c Zdjęcie kilku urn grobowych (ossuariów) z jaskini Peqi’in. Pasek skali: 10 cm. Zdjęcie Mariana Salzberger, dzięki uprzejmości Israel Antiquities Authority. Ta liczba nie jest objęta licencją CC BY dla tego artykułu. Wszelkie prawa zastrzeżone.

Wcześniejsze badania starożytnego DNA obejmujące cały genom z Bliskiego Wschodu ujawniły, że w czasie, gdy rozwijało się rolnictwo, populacje z Anatolii, Iranu i Lewantu były mniej więcej tak samo zróżnicowane genetycznie, jak dzisiejsi Europejczycy i mieszkańcy Azji Wschodniej 24 , 25. Jednak w epoce brązu ekspansja różnych bliskowschodnich populacji rolniczych — anatolijskich, irańskich i lewantyńskich — we wszystkich kierunkach i wzajemne mieszanie się zasadniczo ujednoliciła populacje w całym regionie, przyczyniając się w ten sposób do stosunkowo niskiego zróżnicowania genetycznego, które dominuje dzisiaj 24 . Lazaridis i in.24wykazało, że populacja Lewantu z epoki brązu z miejsca „Ain Ghazal w Jordanii (2490–2300 pne) może być statystycznie dopasowana jako mieszanka około 56% pochodzenia z grupy spokrewnionej z rolnikami z neolitu lewantyńskiego przed ceramiką (reprezentowane przez starożytne DNA z Motza w Izraelu i „Ain Ghazal w Jordanii; 8300–6700 pne) i 44% związanych z populacjami irańskiego chalkolitu (Seh Gabi, Iran; 4680–3662 kal. p.n.e.). Haber i in. 26zasugerował, że populacja kananejskiego Lewantu z epoki brązu z miejsca Sydonu w Libanie (~ 1700 p.n.e.) może być modelowana jako mieszanka tych samych dwóch grup, aczkolwiek w różnych proporcjach (48% związanych z neolitem Lewantu i 52% z irańskim chalkolitem) . Jednak dotychczas przeanalizowane stanowiska z epoki neolitu i epoki brązu w Lewancie są oddalone w czasie o ponad trzy tysiące lat, co sprawia, że ​​badanie próbek wypełniających tę lukę, takich jak te z Peqi’in, ma kluczowe znaczenie.

W specjalnym pomieszczeniu czystym w Harvard Medical School uzyskaliśmy proszek kostny z 48 szczątków szkieletowych, z których 37 to kości skaliste znane z doskonałego zachowania DNA 27 . Wyekstrahowaliśmy DNA 28 i zbudowaliśmy biblioteki sekwencjonowania nowej generacji, do których dołączyliśmy unikalne kody kreskowe, aby zminimalizować możliwość zanieczyszczenia. Biblioteki potraktowaliśmy glikozylazą uracylowo-DNA (UDG), aby zredukować charakterystyczne starożytne uszkodzenia DNA, z wyjątkiem pierwszego i ostatniego nukleotydu 29 (tabela uzupełniająca  1 i dane uzupełniające  1zapewnić tło dla udanych próbek i podać informacje odpowiednio dla każdej biblioteki). Po wstępnym skriningu poprzez wzbogacenie bibliotek pod kątem mitochondrialnego DNA, wzbogaciliśmy obiecujące biblioteki o sekwencje pokrywające się z około 1,2 milionami polimorfizmów pojedynczego nukleotydu (SNP) 30 , 31. Oceniliśmy każdą osobę pod kątem autentyczności starożytnego DNA, ograniczając się do bibliotek z minimum 3% błędami cytozyny do tyminy na końcowym nukleotydzie 29, wymagając, aby stosunek sekwencji chromosomu X do Y był charakterystyczny dla obu samca lub samicę, wymagając >95% dopasowania do sekwencji konsensusowej mitochondrialnego DNA 30oraz wymagając (w przypadku samców) braku zmienności w znanych pozycjach polimorficznych na chromosomie X (szacunki punktowe zanieczyszczenia poniżej 2%) 32 . Ograniczyliśmy się również do osób, które przynajmniej raz objęły co najmniej 5000 docelowych SNP.

Ta procedura dała dane dotyczące całego genomu od 22 starożytnych osobników z jaskini Peqi’in (4500–3900 calBCE), przy czym osoby miały medianę 358 313 docelowych SNP objętych co najmniej raz (zakres: 25 171–1 002 682). Zbiór danych jest wyjątkowej jakości, biorąc pod uwagę zazwyczaj słabe zachowanie DNA na ciepłym Bliskim Wschodzie, z wyższym odsetkiem próbek dających znaczne pokrycie starożytnego DNA niż wcześniej uzyskano z regionu, prawdopodobnie odzwierciedlając zastosowane przez nas optymalne techniki pobierania próbek i dobre warunki konserwatorskie w jaskini. Przeanalizowaliśmy ten zestaw danych w połączeniu z wcześniej opublikowanymi zbiorami danych starożytnych populacji Bliskiego Wschodu 24 , 26 rzucić światło na historię osób pochowanych w jaskini Peqi’in oraz na dynamikę populacji Lewantu w okresie późnego chalkolitu.

Wyniki

Zróżnicowanie i różnorodność genetyczna w starożytnym Lewancie

W sumie 20 próbek Peqi’in wydaje się być niezwiązanych ze sobą w granicach naszej rozdzielczości (to znaczy analiza genetyczna sugeruje, że nie były one krewnymi pierwszego, drugiego ani trzeciego stopnia) i wykorzystaliśmy je jako nasz zestaw analiz. Korzystając z nowego punktu danych dodanego przez próbki Peqi’in, zaczęliśmy od zbadania, jak zróżnicowanie genetyczne między populacjami lewantyńskimi zmieniało się w czasie. Powtórzyliśmy poprzednie doniesienia o dramatycznym spadku zróżnicowania genetycznego w czasie w Zachodniej Eurazji 24 , obserwując medianę parami ST wynoszącą 0, 023 (zakres: 0, 009–0, 061) między próbkami Peqi’in (skrót: Levant_ChL) a innymi zachodnio-euroazjatyckimi neolitami i chalkolitami populacji, w stosunku do wcześniej podanej mediany parami ST0,098 (zakres: 0,023–0,153) obserwowany między populacjami w okresach przedneolitycznych, 0,015 (zakres: 0,002–0,045) w okresach epoki brązu i 0,011 (zakres: 0–0,046) we współczesnych populacjach zachodniej Eurazji 24 . Tak więc upadek do obecnych poziomów zróżnicowania został w dużej mierze zakończony przez chalkolit (rysunek uzupełniający  1 ).

Obserwujemy również wzrost różnorodności genetycznej w czasie w Lewancie, mierzony szybkością polimorfizmu między dwiema losowymi sekwencjami genomu w każdym SNP analizowanym w naszym badaniu. Konkretnie, populacja Levant_ChL wykazuje pośredni poziom heterozygotyczności względem wcześniejszych i późniejszych populacji (Fig.  2 ).

Ryc. 2

Różnorodność genetyczna w starożytnym Lewancie. Z biegiem czasu heterozygotyczność wzrasta w starożytnych populacjach lewantyńskich. Podano szacunkową statystykę ± 3 błędy standardowe.

Zarówno rosnąca różnorodność genetyczna w czasie, jak i zmniejszone zróżnicowanie między populacjami mierzone za pomocą F ST są zgodne z modelem, w którym przepływ genów zmniejszał zróżnicowanie między grupami, jednocześnie zwiększając różnorodność w obrębie grup.

Genetyczne podobieństwa osobników z jaskini Peqi’in

Aby uzyskać jakościowy obraz tego, jak te osoby odnoszą się do wcześniej opublikowanego starożytnego DNA i do współczesnych ludzi, zaczęliśmy od przeprowadzenia analizy głównych składowych (PCA) 33 . Na wykresie pierwszej i drugiej składowej głównej (ryc.  3a), próbki z jaskini Peqi’in tworzą ciasne skupisko, wspierając grupowanie tych osobników w pojedynczą populację do analizy (chociaż używamy szerokiej nazwy „Levant_ChL” w odniesieniu do tych próbek, zdajemy sobie sprawę, że są one obecnie jedynymi starożytnymi DNA dostępne z Lewantu w tym okresie i przyszłe prace prawdopodobnie ujawnią podstrukturę genetyczną w próbkach chalkolitu w szerokim regionie). Klaster Levant_ChL pokrywa się w PCA z klastrem zawierającym neolityczne próbki lewantyńskie (Levant_N), chociaż jest nieco przesunięty w górę na wykresie w kierunku klastra odpowiadającego próbkom z epoki brązu Lewantu, w tym próbkom z „Ain Ghazal, Jordania (Levant_BA_South) i Sydon w Libanie (Levant_BA_North).24 .

Ryc. 3

Struktura genetyczna analizowanych osobników. a Analiza głównych składowych 984 współczesnych mieszkańców Zachodniej Eurazji (pokazana na szaro) z 306 starożytnymi próbkami rzutowanymi na pierwsze dwie główne osie składowe i oznaczonymi według kultury. b Analiza DOMIESZANKI 984 i 306 starożytnych próbek z K  = 11 składników przodków. Pokazane są tylko starożytne próbki

Analiza skupień oparta na modelu ADMIXTURE34 przyniosła wyniki zgodne z PCA, sugerując, że osobnicy z populacji Levant_ChL mieli średnio większe pokrewieństwo z irańskimi populacjami związanymi z rolnictwem niż miało to miejsce w przypadku wcześniejszych osobników lewantyńskich. Rysunek 3b pokazuje wyniki ADMIXTURE dla starożytnych osobników przy założeniu K = 11 klastrów (wybraliśmy tę liczbę, ponieważ maksymalizuje ona komponenty rodowe, które są skorelowane ze starożytnymi populacjami z Lewantu, z Iranu i europejskimi łowcami-zbieraczami)24. Podobnie jak w przypadku wszystkich populacji lewantyńskich, główny komponent rodowy przypisany do populacji Levant_ChL, pokazany na niebiesko, jest maksymalizowany u wcześniejszych osobników Levant_N i Natufian. ADMIXTURE przypisuje również składnik rodowodu w Levant_ChL, pokazany na zielono, do populacji, która jest ogólnie nieobecna we wcześniejszych populacjach Levant_N i Natufian, ale jest obecna w późniejszych próbkach Levant_BA_South i Levant_BA_North. Ten zielony komponent jest również wnioskowany w niewielkich proporcjach w kilku próbkach przypisanych do Levant_N, ale nie ma wyraźnego związku z lokalizacją archeologiczną lub datą, a osobniki te nie różnią się znacząco genetycznie od innych osobników włączonych do Levant_N przez formalne testy, a zatem łączymy wszystkie Levant_N dla głównych analiz w tym badaniu (Dodatkowa uwaga 1)24.

Ciągłość populacji i domieszki w Lewancie

Aby określić związek populacji Levant_ChL z innymi starożytnymi populacjami bliskowschodnimi, użyliśmy f-statystyki35 (więcej szczegółów w Supplementary Note 2). Najpierw oceniliśmy, czy populacja Levant_ChL jest zgodna z pochodzeniem bezpośrednio z populacji związanej z wcześniejszym Levant_N. Gdyby tak było, oczekiwalibyśmy, że populacja Levant_N byłaby zgodna z byciem bliżej spokrewnioną z populacją Levant_ChL niż z jakąkolwiek inną populacją, i rzeczywiście potwierdzamy to, obserwując dodatnią statystykę w postaci f4 (Levant_ChL, A; Levant_N, Chimpanzee) dla wszystkich starożytnych populacji testowych, A (ryc. 4a). Jednakże populacje Levant_ChL i Levant_N nie tworzą kladu, ponieważ gdy obliczamy statystykę symetrii formy f4 (Levant_N, Levant_ChL; A, Chimpanzee), stwierdzamy, że statystyka ta jest często ujemna, przy czym populacje bliskowschodnie spoza Lewantu dzielą więcej alleli z Levant_ChL niż z Levant_N (ryc. 4b). Wnioskujemy, że podczas gdy populacje Levant_N i Levant_ChL są wyraźnie spokrewnione, populacja Levant_ChL nie może być modelowana jako pochodząca bezpośrednio z populacji Levant_N bez dodatkowej domieszki związanej ze starożytnymi irańskimi rolnikami. Bezpośrednie dowody na to, że Levant_ChL jest domieszką pochodzą ze statystyki f3 (Levant_ChL; Levant_N, A), która dla niektórych populacji, A, jest znacząco ujemna, wskazując, że częstotliwości alleli w Levant_ChL mają tendencję do bycia pośrednimi między tymi w Levant_N i A – wzór, który może powstać tylko wtedy, gdy Levant_ChL jest produktem domieszki między grupami spokrewnionymi, być może daleko, z Levant_N i A35. Najbardziej negatywne statystyki f3- i f4 powstają, gdy A jest populacją z Iranu lub Kaukazu. Sugeruje to, że populacja Levant_ChL wywodzi się z populacji spokrewnionej z Levant_N, ale posiada również przodków z nielewantyńskich populacji spokrewnionych z tymi z Iranu lub Kaukazu, z którymi Levant_N nie dzieli się (lub przynajmniej dzieli się w takim samym stopniu).

Ryc. 4

Charakterystyka genetyczna Levant_ChL. a Statystyka f4(Levant_ChL, A; Levant_N, Chimpanzee) pokazuje bliskie pokrewieństwo między neolitycznymi i chalkolitycznymi populacjami Lewantu, ponieważ neolit lewantyński dzieli więcej alleli z chalkolitycznym Lewantem niż z jakąkolwiek inną populacją. b Statystyka f4(Levant_N, Levant_ChL; A, szympans) pokazuje asymetryczną relację między Levant_N i Levant_ChL a innymi starożytnymi populacjami zachodnioeuropejskimi. Statystyka jest najbardziej ujemna dla populacji z Iranu i Kaukazu, wskazując, że Levant_ChL dzieli z nimi więcej alleli niż Levant_N. c Statystyka f3(Levant_ChL; Levant_N, A) testuje sygnały domieszki w Levant_ChL. Ujemna statystyka f3 wskazuje, że populacja Levant_ChL jest domieszkowana. Populacje z Iranu i Kaukazu dają najwięcej ujemnych statystyk. Szacowana statystyka ± 3 błędy standardowe jest wskazana

Przodkowie ludu chalkolitu z Lewantu

Użyliśmy qpAdm jako naszego głównego narzędzia do identyfikacji wiarygodnych modeli domieszek dla starożytnych populacji, dla których mamy dane (więcej informacji znajduje się w uwadze dodatkowej 3 ) 36 .

Metoda qpAdm ocenia, czy badany zbiór N „lewych” populacji — w tym populacja „docelowa” (populacja, której pochodzenie jest modelowane) oraz zbiór N  − 1 dodatkowych populacji — jest zgodny z otrzymanymi z mieszanin w różnych proporcjach z N  - 1 populacji przodków spokrewnionych w różny sposób ze zbiorem populacji obcych, określanych jako populacje „prawe”. We wszystkich naszych analizach używamy podstawowego zestawu 11 „prawicowych” grup zewnętrznych określanych zbiorczo jako „09NW” – Ust_Ishim, Kostenki14, MA1, Han, Papuan, Onge, Czukczi, Karitiana, Mbuti, Natufian i WHG – których wartość dla rozplątywanie rozbieżnych szczepów przodków obecnych u starożytnych mieszkańców Bliskiego Wschodu zostało udokumentowane w Lazaridis i in. 24(dla niektórych analiz uzupełniamy ten zbiór o dodatkowe grupy obce). Aby ocenić, czy populacje „lewe” są zgodne z hipotezą wyprowadzenia z N  − 1 źródeł, qpAdm efektywnie oblicza wszystkie możliwe statystyki postaci 4 (Left i , Left j ; Right k , Right l ), ​​dla wszystkich możliwych pary populacji w proponowanych zbiorach „Lewy” i „Prawy  . Następnie określa, czy wszystkie statystyki można zapisać jako liniową kombinację statystyk 4 odpowiadających wzorcom różnicowania między proponowanymi N − 1 populacji przodków, odpowiednio uwzględniając kowariancję tych statystyk i obliczając pojedynczą wartość p dla dopasowania na podstawie rozkładu T -kwadrat Hotellinga 36 . Dla modeli, które są zgodne z danymi ( p  > 0,05), qpAdm szacuje proporcje domieszki dla populacji docelowej ze źródeł związanych z populacjami przodków N  − 1 (z błędami standardowymi). Co najważniejsze, qpAdm nie wymaga określania jawnego modelu, w jaki sposób populacje „prawej” grupy zewnętrznej są powiązane.

Najpierw zbadaliśmy wszystkie możliwe zestawy populacji „lewicowych”, które składały się z Levant_ChL wraz z jedną inną starożytną populacją ze zbioru danych analizy. Testując szeroki zakres starożytnych populacji, stwierdziliśmy, że wartości p dla wszystkich możliwych populacji lewicowych były poniżej 0, 05 (dane uzupełniające  2), pokazując, że Levant_ChL nie jest zgodny z byciem kladem z którymkolwiek z nich w stosunku do „prawej” grupy zewnętrznej 09NW. Następnie rozważyliśmy modele z „lewicowymi” zestawami populacji zawierającymi Levant_ChL wraz z dwiema dodatkowymi starożytnymi populacjami, co odpowiada modelowaniu Levant_ChL w wyniku dwukierunkowej domieszki między populacjami związanymi z tymi dwoma innymi starożytnymi populacjami. Aby zmniejszyć liczbę testowanych hipotez, ograniczyliśmy modele do par populacji źródłowych, które zawierają co najmniej jedną z sześciu populacji, które uważamy za najbardziej prawdopodobne źródła domieszek w oparciu o bliskość geograficzną i czasową: Anatolia_N, Anatolia_ChL, Armenia_ChL, Iran_ChL , Iran_N i Lewant_N. Ponownie, nie znajdujemy wiarygodnych dwukierunkowych modeli domieszek przy użyciu progu p  > 0, 05 (rysunek uzupełniający 2 i dane uzupełniające 3 ). Na koniec przetestowaliśmy możliwe trójdrożne zdarzenia domieszkowe, ograniczając się do trojaczków, które zawierają co najmniej dwa z sześciu najbardziej prawdopodobnych źródeł domieszek. Prawdopodobne rozwiązania przy p  > 0, 05 wymieniono w Tabeli  1 (pełne wyniki przedstawiono na Rycinie uzupełniającej  3 i Danych uzupełniających  4 ).

Tabela 1 Wiarygodne modele Levant_ChL jako mieszaniny trzech źródeł

 Starożytne DNA z chalkolitycznego Izraela ujawnia rolę mieszanki populacji w transformacji kulturowej

Źródło lewej populacji Proporcje domieszek Standardowy błąd
Cel A B C Outgroup prawe wyskakuje p Ranking wartości = 2 A B C A B C
Lewant_ChL Lewant_N Anatolia_N Iran_ChL 09NW 6.82E-02 0,580 0,259 0,161 0,035 0,048 0,030
Lewant_ChL Lewant_N Anatolia_N Iran_ChL 09NWL 6.69E-02 0,561 0,291 0,148 0,030 0,037 0,027
Lewant_ChL Lewant_N Anatolia_N Iran_ChL 09NWLY 9.15E-02 0,561 0,301 0,138 0,030 0,032 0,020
Lewant_ChL Lewant_N Anatolia_N Iran_ChL 09NWSGEITMLY 1.14E-01 0,571 0,264 0,166 0,030 0,028 0,015
Lewant_ChL Lewant_N Anatolia_N Iran_LN 09NW 1.14E-01 0,562 0,281 0,157 0,035 0,044 0,028
Lewant_ChL Lewant_N Anatolia_N Iran_LN 09NWL 4,62E-02 0,534 0,335 0,131 0,030 0,032 0,025
Lewant_ChL Lewant_N Anatolia_N Iran_HotuIIIb 09NW 8.22E-02 0,484 0,217 0,299 0,033 0,043 0,045
Lewant_ChL Lewant_N Anatolia_N Iran_HotuIIIb 09NWL 6.11E-03 0,476 0,305 0,219 0,036 0,035 0,048
Lewant_ChL Lewant_N Anatolia_N Iran_N 09NW 1.09E-01 0,579 0,308 0,113 0,035 0,041 0,020
Lewant_ChL Lewant_N Anatolia_N Iran_N 09NWL 4,74E-02 0,551 0,356 0,094 0,030 0,031 0,018
Lewant_ChL Lewant_N Anatolia_N Lewant_BA_Północ 09NW 2.16E-01 0,494 0,233 0,273 0,035 0,047 0,046
Lewant_ChL Lewant_N Anatolia_N Lewant_BA_Północ 09NWL 1.13E-01 0,478 0,286 0,236 0,034 0,036 0,478
Lewant_ChL Lewant_N Anatolia_N Lewant_BA_Północ 09NWLY 3.36E-02 0,481 0,254 0,265 0,034 0,034 0,040
Lewant_ChL Lewant_N Europa_EN Iran_ChL 09NW 6,80E-02 0,633 0,172 0,195 0,029 0,033 0,027
Lewant_ChL Lewant_N Europa_EN Iran_ChL 09NWL 6.38E-03 0,613 0,207 0,180 0,028 0,030 0,027
Lewant_ChL Lewant_N Europa_EN Iran_N 09NW 6.89E-02 0,647 0,213 0,140 0,029 0,031 0,020
Lewant_ChL Lewant_N Europa_EN Iran_N 09NWL 1,88E-03 0,628 0,262 0,109 0,029 0,027 0,200
  1. Uwaga: Populacje, które wytwarzają wartości p większe niż 0,05 z prawdopodobnymi proporcjami domieszek (0–1) zaznaczono kursywą. Pogrubioną czcionką zaznaczono model z najniższymi błędami standardowymi

Znaleźliśmy wielu kandydatów do trójdrożnych modeli domieszek, zawsze obejmujących (1) Levant_N (2) Anatolia_N lub Europe_EN oraz (3) Iran_ChL, Iran_N, Iran_LN, Iran_HotuIIIb lub Levant_BA_North. Są to wszystkie bardzo podobne modele, ponieważ Europe_EN (pierwsi europejscy rolnicy) są genetycznie wywodzący się głównie od anatolijskich rolników (Anatolia_N) 31 , a Levant_BA_North ma przodków spokrewnionych z Levant_N i Iran_ChL 26. Aby rozróżnić modele obejmujące anatolijski neolit ​​(Anatolia_N) i europejski wczesny neolit ​​(Europe_EN), powtórzyliśmy analizę, włączając dodatkowe populacje z grupy zewnętrznej w zestawie „Prawy”, które są wrażliwe na europejską domieszkę związaną z łowcami-zbieraczami obecną w większym stopniu w Europe_EN niż w Anatolia_N (rysunek uzupełniający  4a ) 31 (w ten sposób dodaliśmy Switzerland_HG, SHG, EHG, Iberia_BA, Steppe_Eneolithic, Europe_MNChL, Europe_LNBA do „prawych” grup zewnętrznych; skróty w tabeli uzupełniającej  2 ). Stwierdziliśmy, że tylko modele obejmujące Levant_N, Anatolia_N i Iran_ChL lub Levant_BA_North przeszły przy p  > 0, 05 (Tabela  1). Aby rozróżnić Iran_ChL i Levant_BA_North, dodaliśmy Iran_N do zestawu grup zewnętrznych (w sumie 19 = 11 + 8 grup zewnętrznych) (Rysunek dodatkowy  4b ). Tylko model z udziałem Iran_ChL pozostał wiarygodny. Na podstawie tego wyjątkowo dopasowanego modelu qpAdm wnioskujemy, że pochodzenie Levant_ChL jest wynikiem trójstronnej domieszki populacji związanych z Levant_N (57%), Iran_ChL (17%) i Anatolia_N (26%).

Pochodzenie populacji późnej lewantyńskiej epoki brązu

Uderzyło nas, że wcześniej opublikowane próbki lewantyńskie z epoki brązu z miejsc „Ain Ghazal w dzisiejszej Jordanii (Levant_BA_South) i Sidon w dzisiejszym Libanie (Levant_BA_North) można modelować jako domieszki dwukierunkowe, bez wkładu Anatolia_N co jest wymagane do modelowania populacji Levant_ChL 24 , 26 . Sugeruje to, że populacja Levant_ChL może nie być bezpośrednio przodkiem tych późniejszych populacji lewantyńskich z epoki brązu, ponieważ gdyby tak było, spodziewalibyśmy się również wykrycia składnika pochodzenia Anatolia_N. Poniżej traktujemy Levant_BA_South i Levant_BA_North jako oddzielne populacje do analizy, ponieważ statystyka symetrii f 4(Levant_BA_North, Levant_BA_South; A, szympans) jest istotny dla liczby populacji testowych A (| Z | ≥ 3) (dane uzupełniające  5 ), zgodnie z różnymi szacunkowymi proporcjami przodków Levant_N i Iran_ChL zgłoszonymi w 24 , 26 .

Aby przetestować hipotezę, że Levant_ChL może być bezpośrednio przodkiem populacji lewantyńskiej epoki brązu, próbowaliśmy modelować zarówno Levant_BA_South, jak i Levant_BA_North jako dwukierunkowe domieszki między Levant_ChL i każdą inną starożytną populacją w naszym zbiorze danych, używając podstawowego zestawu populacji 09NW jako „Prawe” grupy zewnętrzne. Porównaliśmy również te modele z wcześniej opublikowanymi modelami, które wykorzystywały populacje Levant_N i Iran_ChL jako źródła (Tabela  2 ; Rysunek uzupełniający  5 ; Dane uzupełniające  6). W przypadku Levant_BA_South z Ain Ghazal w Jordanii wiele modeli było wiarygodnych, dlatego powróciliśmy do strategii dodawania dodatkowych „prawicowych” grup zewnętrznych, które są różnie spokrewnione z jedną lub kilkoma populacjami „lewicowymi” (konkretnie my dodano różne kombinacje Armenia_EBA, Steppe_EMBA, Switzerland_HG, Iran_LN i Iran_N). Tylko model obejmujący Levant_N i Iran_ChL pozostaje wiarygodny we wszystkich warunkach. Możemy zatem stwierdzić, że grupy związane z Levant_ChL wniosły niewielki wkład w pochodzenie Levant_BA_South.

Tabela 2 Modelowanie Levant_BA_South i Levant_BA_North jako mieszanki Levant_ChL i starożytnej populacji, A

Od: Starożytne DNA z chalkolitycznego Izraela ujawnia rolę mieszanki populacji w transformacji kulturowej

Źródło lewej populacji Proporcje domieszek
Cel A B Outgroup prawe wyskakuje p Ranking wartości = 2 A B Standardowy błąd
Lewant_BA_Południe Lewant_N Iran_ChL 09NW 9.88E-01 0,549 0,451 0,031
Lewant_BA_Południe Lewant_N Iran_ChL 09NWFPPY 5.14E-01 0,571 0,429 0,026
Lewant_BA_Południe Lewant_N Iran_ChL 09NWFPSD 1,95E-01 0,582 0,418 0,025
Lewant_BA_Południe Lewant_N Iran_ChL 09NWA 9.94E-01 0,55 0,45 0,027
Lewant_BA_Południe Lewant_N Iran_ChL 09NWAZ 1,39E-02 0,601 0,399 0,026
Lewant_BA_Południe Lewant_ChL CHG 09NW 5,97E-02 0,788 0,212 0,032
Lewant_BA_Południe Lewant_ChL CHG 09NWFPPY 1,82E-03 0,812 0,188 0,024
Lewant_BA_Południe Lewant_ChL Iran_ChL 09NW 2.00E-01 0,714 0,286 0,04
Lewant_BA_Południe Lewant_ChL Iran_ChL 09NWFPPY 3.06E-02 0,723 0,277 0,033
Lewant_BA_Południe Lewant_ChL Iran_LN 09NW 3,53E-01 0,717 0,283 0,039
Lewant_BA_Południe Lewant_ChL Iran_LN 09NWFPPY 1,22E-02 0,779 0,221 0,026
Lewant_BA_Południe Lewant_ChL Iran_HotuIIIb 09NW 2.43E-01 0,556 0,444 0,051
Lewant_BA_Południe Lewant_ChL Iran_HotuIIIb 09NWFPSD 3,79E-02 0,585 0,415 0,047
Lewant_BA_Południe Lewant_ChL Iran_N 09NW 4.41E-01 0,797 0,203 0,028
Lewant_BA_Południe Lewant_ChL Iran_N 09NWFPSD 8.00E-04 0,853 0,147 0,075
Lewant_BA_Północ Lewant_N Iran_ChL 09NW 0,003804 0,348 0,652 0,028
Lewant_BA_Północ Lewant_N Iran_ChL Habera 0,222705 0,518 0,482 0,04
Lewant_BA_Północ Lewant_N Iran_ChL Haber + A 0,002457 0,394 0,606 0,025
Lewant_BA_Północ Lewant_ChL Iran_LN 09NW 0,267145 0,532 0,468 0,031
Lewant_BA_Północ Lewant_ChL Iran_LN Habera 0,398822 0,555 0,445 0,04
Lewant_BA_Północ Lewant_ChL Iran_LN Haber A 0,455948 0,535 0,465 0,019
Lewant_BA_Północ Lewant_ChL Iran_N 09NW 0,401157 0,63 0,37 0,024
Lewant_BA_Północ Lewant_ChL Iran_N Habera 0,638884 0,655 0,345 0,035
Lewant_BA_Północ Lewant_ChL Iran_N Haber A 0,693801 0,638 0,362 0,015
Lewant_BA_Północ Lewant_ChL Iran_HotuIIIb 09NW 0,216066 0,377 0,623 0,033
Lewant_BA_Północ Lewant_ChL Iran_HotuIIIb Habera 0,03318 0,299 0,701 0,047
Lewant_BA_Północ Lewant_ChL Iran_HotuIIIb Haber + A 0,007102 0,399 0,601 0,019
  1. Uwaga: Populacje, które wytwarzają wartości p większe niż 0,05 z prawdopodobnymi proporcjami domieszek (między 0 a 1) są zaznaczone kursywą. Modele odporne na maksymalną liczbę grup zewnętrznych są pogrubione.

Obserwujemy jakościowo odmienny wzorzec w próbkach Levant_BA_North z Sydonu w Libanie, gdzie modele obejmujące Levant_ChL w połączeniu z populacjami Iran_N, Iran_LN lub Iran_HotuIIIb wydają się być znacznie lepiej dopasowane niż modele obejmujące Levant_N + Iran_ChL. W dużej mierze potwierdzamy ten wynik, stosując „prawe” grupy zewnętrzne populacji zdefiniowane w Haber et al. 26 (skr. Haber: Ust_Ishim, Kostenki14, MA1, Han, Papuan, Ami, Chuckhi, Karitiana, Mbuti, Switzerland_HG, EHG, WHG i CHG), chociaż stwierdzamy, że konkretny model obejmujący Iran_HotuIIIb nie działa już z tym „Prawym ” zbiór populacji. Badając to dalej, stwierdzamy, że dodanie Anatolia_N do zestawu „prawej” grupy zewnętrznej wyklucza model Levant_N + Iran_ChL preferowany przez Habera i in. 26. Wyniki te sugerują, że populacja, która miała przodków bliżej spokrewnionych z Levant_ChL niż z Levant_N, przyczyniła się do populacji Levant_BA_North, nawet jeśli nie przyczyniła się w sposób wykrywalny do populacji Levant_BA_South.

Uzyskaliśmy dodatkowy wgląd, uruchamiając qpAdm z Levant_BA_South jako cel dwukierunkowej domieszki między Levant_N i Iran_ChL, ale teraz dodając Levant_ChL i Anatolia_N do podstawowego zestawu 09NW „Right ” 11 grup zewnętrznych. Dodanie Levant_ChL powoduje niepowodzenie modelu, co wskazuje, że Levant_BA_South i Levant_ChL mają wspólne pochodzenie po oddzieleniu ich obu od przodków Levant_N i Iran_ChL. Tak więc w przeszłości istniała niespróbowana populacja, która przyczyniła się zarówno do Levant_ChL, jak i do Levant_BA_South, mimo że Levant_ChL nie może być bezpośrednim przodkiem Levant_BA_South, ponieważ, jak opisano powyżej, ma pochodzenie związane z Anatolią_N, którego nie ma w Levant_BA_South.

Heterogeniczność genetyczna w lewantyńskiej epoce brązu

Obawialiśmy się, że nasze odkrycie, że populacja Levant_ChL była mieszanką co najmniej trzech grup, może być artefaktem braku dostępu do próbek blisko spokrewnionych z prawdziwymi populacjami przodków. Jedną z konkretnych możliwości, które rozważaliśmy, jest to, że pojedyncza populacja przodków została zmieszana z Lewantem, aby przyczynić się zarówno do populacji Levant_ChL, jak i Levant_BA_South, i że była to populacja bez próby na klinie domieszek między Anatolią_N i Iran_ChL, wyjaśniając, dlaczego qpAdm wymaga trzech populacji źródłowych do wymodeluj to. Aby formalnie przetestować tę hipotezę, użyliśmy qpWave 36 , 37 , 38 , który określa minimalną liczbę populacji źródłowych wymaganych do modelowania relacji między „ populacjami lewicy w stosunku do” populacje pozagrupowe. W przeciwieństwie do qpAdm, qpWave nie wymaga, aby do analizy były dostępne populacje blisko spokrewnione z prawdziwymi populacjami źródłowymi. Zamiast tego traktuje jednakowo wszystkie „lewicowe” populacje i próbuje określić minimalną liczbę teoretycznych populacji źródłowych wymaganych do modelowania zbioru „lewicowych” populacji w stosunku do zewnętrznych grup populacji „prawicowych”. Dlatego modelujemy związek między Levant_N, Levant_ChL i Levant_BA_South jako populacje „lewe  w stosunku do populacji „prawej” grupy zewnętrznej 09NW (Tabela  3). Stwierdzamy, że do modelowania pochodzenia tych populacji lewantyńskich nadal wymagane są co najmniej trzy populacje źródłowe, wspierając model, w którym co najmniej trzy oddzielne źródła przodków są obecne w Lewancie między neolitem, chalkolitem i epoką brązu.

Tabela 3 Określenie liczby strumieni przodków w Lewancie

Od: Starożytne DNA z chalkolitycznego Izraela ujawnia rolę mieszanki populacji w transformacji kulturowej

Lewe wyskakuje Prawe wyskakuje Ranga Stopnie swobody Chi kwadrat Wartość p
Lewant_N 0 20 190.024 1.047e-29
Lewant_ChL 09NW 1 9 32.641 1.541e-4
Lewant_BA_Południe 2 0 0.000 1.000
Lewant_N 0 20 399.438 2.673e-72
Lewant_BA_Południe 09NW 1 9 6.574 0,681
Lewant_BA_Północ 2 0 0.000 1.000
Lewant_N 0 20 706.552 3.221e-135
Lewant_BA_Południe 09NWZ 1 9 28.050 1.772e-3
Lewant_BA_Północ 2 0 0.000 1.000
  1. Uwaga: Modele, które mają wiarygodną rangę (tj. wartość p większą niż 0,05) są pogrubione. Ranga jest równa minimalnej liczbie populacji źródłowych wymaganych do modelowania „lewej” grupy populacji w stosunku do „prawej” grupy populacji minus 1 (a więc ranga 2, która jest jedynym działającym rozwiązaniem dla wszystkich zestawów trzech „lewych” populacje, odzwierciedla trzy mieszające się populacje)

Ponownie zastosowaliśmy qpWave, zastępując Levant_ChL Levant_BA_North i stwierdziliśmy, że minimalna liczba populacji źródłowych to tylko dwie. Jednak gdy uwzględnimy populację Levant_ChL jako dodatkową grupę zewnętrzną, ponownie wymagane są trzy populacje źródłowe. Sugeruje to, że przy braku danych z Levant_ChL nie ma wystarczającej dźwigni statystycznej do wykrycia pochodzenia związanego z Anatolią, które jest naprawdę obecne w postaci zmieszanej w populacji Levant_BA_North (dane z populacji Levant_ChL umożliwiają wykrycie tego przodka). To może wyjaśniać, dlaczego Haber i in. 26 nie wykrył domieszki związanej z anatolijskim neolitem w Levant_BA_North.

Biologicznie ważne mutacje w populacji Peqi’in

To badanie prawie podwaja liczbę osobników z danymi całego genomu ze starożytnego Lewantu. Mierzony w kategoriach średniego zasięgu w SNP, wzrost ten jest jeszcze wyraźniejszy ze względu na wyższą jakość przedstawionych tutaj danych niż w poprzednich badaniach starożytnych mieszkańców Bliskiego Wschodu 24 , 26 . Zatem niniejsze badanie znacznie zwiększa moc analizy zmiany częstotliwości alleli, o których wiadomo, że są ważne biologicznie.

Wykorzystaliśmy nasze dane do zbadania zmiany częstości alleli SNP, o których wiadomo, że są związane z metabolizmem, pigmentacją, podatnością na choroby, odpornością i stanem zapalnym w populacji Levant_ChL, rozważanej w odniesieniu do częstości alleli w Levant_N, Levant_BA_North, Levant_BA_South, Anatolia_N i Populacje Iran_ChL i obecne pule pochodzenia afrykańskiego (AFR), wschodnioazjatyckiego (EAS) i europejskiego (EUR) w zbiorze danych fazy 3 projektu 1000 genomów 39 (dane uzupełniające  7 ).

Zwracamy uwagę na trzy interesujące ustalenia. Po pierwsze, allel (G) w rs12913832 w pobliżu genu OCA2, z udowodnionym powiązaniem z niebieskim kolorem oczu u osób pochodzenia europejskiego40 , ma szacunkową częstość alleli alternatywnych wynosząca  49% w populacji Levant_ChL, co sugeruje, że fenotyp niebieskookich był powszechny w Levant_ChL.

Po drugie, allel w rs1426654 w genie SLC24A5 , który jest jednym z najważniejszych wyznaczników jasnej pigmentacji u mieszkańców Zachodniej Eurazji41, jest ustalony dla pochodnego allelu ( A ) w populacji Levant_ChL, co sugeruje, że fenotyp o jasnej karnacji mógł być powszechny w tej populacji, chociaż wszelkie wnioski dotyczące pigmentacji skóry na podstawie częstości alleli obserwowanych w jednym miejscu należy traktować z ostrożnością 42 .

Po trzecie, allel ( G ) w rs6903823 w genach ZKSCAN3 i ZSCAN31 , który jest nieobecny u wszystkich wczesnych rolników zgłoszonych do tej pory (Levant_N, Anatolia_N, Iran_N) i który, jak argumentowano, był pod pozytywną selekcją przez Mathieson i in. 31 , występuje z szacowaną częstością 20% w populacjach Levant_ChL, 17% w Levant_BA_South i 15% w populacjach Iran_ChL, podczas gdy nie występuje we wszystkich innych populacjach. Sugeruje to, że częstość allelu rosła w populacjach z epoki chalkolitu i epoki brązu na Bliskim Wschodzie w tym samym czasie, gdy rosła w Europie.

Dyskusja

Okres chalkolitu w Lewancie był świadkiem poważnych przemian kulturowych praktycznie we wszystkich obszarach kultury, w tym w produkcji rzemieślniczej, praktykach pogrzebowych i rytualnych, wzorcach osadnictwa oraz ekspresji ikonograficznej i symbolicznej 43. Obecne badanie zapewnia wgląd w długotrwałą debatę w prehistorii Lewantu, sugerując, że pojawienie się chalkolitycznej kultury materialnej było związane z ruchem i obrotem populacji.

Jakość starożytnego DNA uzyskanego z próbek jaskini Peqi’in jest doskonała w porównaniu z innymi miejscami na Bliskim Wschodzie. Stawiamy hipotezę, że wyjątkowe zachowanie wynika z dwóch czynników. Po pierwsze, ukierunkowane pobieranie próbek starożytnego DNA z części skalistej kości skroniowej umożliwia uzyskanie wysokiej jakości starożytnego DNA z wcześniej niedostępnych regionów geograficznych 24 , 27 , 44 , 45 . Po drugie, środowisko jaskini Peqi’in prawdopodobnie sprzyja zachowaniu DNA. Szczątki szkieletu — albo przechowywane w ossuariach, albo złożone w ziemi — zostały szybko pokryte wapienną skorupą, izolując je od bezpośredniego otoczenia i chroniąc przed kwaśnymi warunkami, o których wiadomo, że uszkadzają DNA.

Odkryliśmy, że osoby pochowane w jaskini Peqi’in reprezentują stosunkowo jednorodną genetycznie populację. Ta jednorodność jest widoczna nie tylko w analizach całego genomu, ale także w fakcie, że większość osobników płci męskiej (dziewięć na dziesięć) należy do haplogrupy T chromosomu Y (patrz tabela uzupełniająca 1), linii, o której sądzono,  że zróżnicowana na Bliskim Wschodzie 46 . Odkrycie to kontrastuje zarówno z wcześniejszymi (neolitycznymi i epipaleolitycznymi) populacjami lewantyńskimi, które były zdominowane przez haplogrupę E 24, jak i osobnikami z późniejszej epoki brązu, z których wszystkie należały do ​​haplogrupy J 24 , 26 .

Nasze odkrycie, że populację Levant_ChL można dobrze modelować jako trójskładnikową domieszkę między Levant_N (57%), Anatolią_N (26%) i Iran_ChL (17%), podczas gdy Levant_BA_South można modelować jako mieszaninę Levant_N (58 %) i Iran_ChL (42%), ale ma niewiele, jeśli w ogóle, dodatkowych przodków związanych z Anatolią_N, można wytłumaczyć jedynie wieloma epizodami przemieszczania się populacji. Obecność przodków spokrewnionych z Iranem w obu populacjach – ale nie we wcześniejszym Levant_N – sugeruje historię rozprzestrzeniania się do Lewantu ludów spokrewnionych z irańskimi rolnikami, co musiało nastąpić co najmniej do czasów chalkolitu. Składnik Anatolian_N obecny w próbce Levant_ChL, ale nie w próbce Levant_BA_South sugeruje, że istniało również oddzielne rozprzestrzenianie się ludzi spokrewnionych z Anatolią w regionie. Populacja Levant_BA_South może zatem reprezentować pozostałość populacji, która powstała po początkowym rozprzestrzenieniu się pochodzenia związanego z Iran_ChL do Lewantu, na który nie miało wpływu rozprzestrzenianie się populacji związanej z Anatolią_N, lub być może ponowne wprowadzenie populacji bez populacji związanej z Anatolią_N przodków do regionu. Ponadto stwierdzamy, że populacja Levant_ChL nie służy jako prawdopodobne źródło przodków związanych z Lewantyną we współczesnych populacjach Afryki Wschodniej (patrz Uwaga dodatkowa 4 ) 24 .

Te wyniki genetyczne mają uderzające korelaty ze zmianami kultury materialnej w zapisie archeologicznym. Znaleziska archeologiczne w jaskini Peqi’in mają charakterystyczne cechy charakterystyczne dla innych stanowisk chalkolitycznych, zarówno na północy, jak i na południu, w tym wtórne pochówki w ossuariach z ikonograficznymi i geometrycznymi wzorami. Sugerowano, że niektóre zwyczaje, artefakty i motywy pogrzebowe z późnego chalkolitu mogły mieć swój początek we wcześniejszych tradycjach neolitycznych w Anatolii i północnej Mezopotamii 8 , 13 , 47 . Niektóre z form ekspresji artystycznej były związane ze znaleziskami i ideami oraz z późniejszymi koncepcjami religijnymi, takimi jak bogowie Inanna i Dumuzi z tych bardziej północnych regionów 6 , 8 , 47 ,4849 , 50 . Postawiono hipotezę, że wiedza i zasoby potrzebne do wytworzenia artefaktów metalurgicznych w Lewancie pochodzą północy 11,51 .

Nasze odkrycie nieciągłości genetycznej między okresami chalkolitu i wczesnej epoki brązu rezonuje również z aspektami zapisów archeologicznych naznaczonych dramatycznymi zmianami we wzorcach osadnictwa 43 , porzucaniem stanowisk na dużą skalę 52 , 53 , 54 , 55 , znacznie mniejszą liczbą przedmiotów o znaczeniu symbolicznym oraz zmiany w praktykach pochówku, w tym zniknięcie wtórnego pochówku w ossuariach 56 , 57 , 58 , 59 . Potwierdza to pogląd, że głęboki przewrót kulturowy, prowadzący do wyginięcia populacji, wiązał się z upadkiem kultury chalkolitu w tym regionie 18 , 6061 , 62 , 63 , 64 .

Te starożytne wyniki DNA ujawniają stosunkowo jednorodną genetycznie populację w Peqi’in. Pokazujemy, że ruchy ludności w regionie południowego Lewantu były niezwykle dynamiczne, a niektóre populacje, takie jak ta pochowana w Peqi’in, zostały częściowo ukształtowane przez wpływy egzogeniczne. Badanie to zawiera również studium przypadku istotne poza Lewantem, pokazujące, w jaki sposób połączona analiza danych genetycznych i archeologicznych może dostarczyć bogatych informacji na temat mechanizmu zmian w przeszłych społeczeństwach.

Metody

Generowanie danych

Jaskinia grobowa Peqi’in została wykopana pod auspicjami Izraelskiego Urzędu Starożytności (zezwolenie nr 2297/1995). Przeszukaliśmy 46 elementów ludzkiego szkieletu z jaskini Peqi’in, z których 37 to kamienne fragmenty kości skroniowej. Przygotowaliśmy od 15 do 114 mg proszku kostnego dla każdej próbki, wiercąc ze zbitej części próbki po oczyszczeniu powierzchni narzędziem Dremel lub wiercąc w wewnętrznej części ucha skalistej części kości skroniowej 27 . Ekstrahowaliśmy DNA przy użyciu protokołu ekstrakcji opartego na kolumnie krzemionkowej, który został zoptymalizowany pod kątem ekstrakcji starożytnego DNA 28 , modyfikując protokoły, zastępując zespół kolumny MinElute wstępnie zmontowanym urządzeniem z kolumną wirującą, jak w Korlević i in. 65. Do proszku kostnego dodaliśmy 1,5 ml buforu ekstrakcyjnego (0,45 M EDTA, pH 8,0 (BioExpress), 0,05% proteinazy K (Sigma)) i inkubowaliśmy w 2,0 ml probówkach w temperaturze 37°C przez noc, obracając. Po inkubacji wirowaliśmy próbki z maksymalną prędkością przez 2 minuty i dodaliśmy 13 ml buforu wiążącego (5 M GuHCl (Sigma), 40% izopropanolu (Sigma), 400 μg octanu sodu (Sigma), pH 5, 2 (Sigma)) do supernatantu. Przenieśliśmy mieszaninę do High Pure Extender z zestawu Viral Nucleic Acid Large Volume Kit (Roche) i wirowaliśmy przy 2000 x g , aż cały płyn zniknął z lejka. Odłączyliśmy kolumnę krzemionkową od lejka, umieściliśmy ją w świeżej 2 ml probówce zbierającej i wirowaliśmy przez 1 minutę przy 8000 x g. Przeprowadziliśmy dwa przemycia, dodając 700 μl buforu PE (Qiagen) do kolumn i wirowano przy 8000 x g przez 30 s, wymieniając probówkę zbierającą po każdym przemyciu. Wykonaliśmy wirowanie na sucho z maksymalną prędkością przez 1 minutę, a następnie wymieniliśmy probówkę zbiorczą. Usunęliśmy eluat DNA z kolumny, dodając 45 μl TTE (10 mM Tris-HCl, pH 8,0 (ThermoFisher), 1 mM EDTA, pH 9,0 (BioExpress), 0,05% Tween-20 (Sigma)) do matrycy krzemionkowej , inkubując przez 5 minut, a następnie wirowano z maksymalną prędkością przez 1 minutę. Powtarzaliśmy ten krok, aż uzyskaliśmy całkowitą objętość 90 μl. W przypadku ponownych prób jednej z próbek przemyliśmy proszek 1 ml 0,5% wybielacza (inkubacja przez 15 minut), a następnie trzykrotnie przemyto 1 ml wody (inkubacja 3 minuty), przed ekstrakcją DNA, jak opisano w Korlević i in. 65 (patrz Dane uzupełniające  1 ) i przygotowane biblioteki przy użyciu częściowego leczenia UDG 29(protokoły biblioteczne różniły się nieznacznie w trakcie generowania danych, patrz Dane uzupełniające  1). Dodaliśmy 30 μl ekstraktu do mieszaniny do traktowania USER (1× Buffer Tango (ThermoFisher), 100 μM dNTP Mix (ThermoFisher), 1 mM ATP (ThermoFisher), 0,06 U/μL enzymu USER (NEB)) i inkubowaliśmy reakcję w 37°C przez 30 min. Zahamowaliśmy enzym UDG przez dodanie inhibitora glikozylazy uracylu (0,12 U / μl; NEB) do mieszanki i inkubację przez kolejne 30 minut w 37 ° C. Następnie wykonaliśmy naprawę tępych końców na próbkach, dodając T4 PNK (0,5 U / μl; ThermoFisher) i polimerazę T4 (90,1 U / μl; ThermoFisher) do mieszaniny i inkubując przez 15 min w 25 ° C, a następnie przez 5 min w temp. 12°C. Oczyściliśmy reakcje za pomocą zestawu do oczyszczania MinElute PCR, dodając pięć objętości buforu PB do mieszaniny reakcyjnej, przenosząc do probówki zbiorczej i wirując przez 30 s przy 3300 × g. Odrzuciliśmy płyn i przemyliśmy dwukrotnie, dodając 700 μl buforu PE do kolumny, wirując przez 30 s przy maksymalnej prędkości i odrzucając probówkę zbierającą, a następnie wirując na sucho przez 1 minutę przy maksymalnej prędkości. Eluowaliśmy próbki w 18 μl 10 mM Tris-HCl (ThermoFisher), który dodaliśmy do membrany krzemionkowej i pozostawiliśmy na 5 minut, a następnie wirowano przez 1 minutę z maksymalną prędkością. Połączyliśmy unikalne adaptery z cząsteczkami w każdej próbce, inkubując mieszaninę próbek w mieszaninie reakcyjnej do ligacji (1 x bufor do ligazy DNA T4 (ThermoFisher), 5% PEG-4000 (ThermoFisher), 0,25 μM adapter P5 (patrz ref. 29 sugerowane informacje dotyczące przygotowania), adapter 0,25 μM P7 (patrz ref. 29sugerowane informacje dotyczące przygotowania), 0,125 U/μl ligazy DNA T4 (ThermoFisher)) przez 30 minut w temperaturze pokojowej. Oczyściliśmy mieszaninę ligacyjną, stosując procedurę oczyszczania opisaną powyżej, eluując 20 μl 10 mM Tris-HCl. Wypełniliśmy zligowane adaptery, dodając mieszaninę reakcyjną do napełniania (1 × bufor ThermoPol (NEB), 250 μM dNTP Mix (ThermoFisher), 0,4 U / μL polimerazy Bst, duży fragment (NEB)) do produktu ligacji i inkubacja w 37°C przez 20 min, a następnie w 80°C przez 20 min. Na koniec amplifikowaliśmy biblioteki za pomocą PCR, dodając 39 μl produktu reakcji wypełnienia do mieszaniny reakcyjnej PCR (1 x Pfu Turbo Cx Reaction Buffer (Agilent Technologies), 0, 4 μM PreHyb-F (5′-CTTTCCCTACACGACGCTTC-3′ ), 0,4 μM PreHyb-R (5′-GTGACTGGAGTTCAGACGTGTGCT-3′), 0,2 mM dNTP Mix (ThermoFisher), Polimeraza DNA 5U Pfu Turbo Cx Hotstart (Agilent Technologies)). Podzieliliśmy każdą reakcję na porcje po 50 μl i umieściliśmy w szczelnie zamkniętej płytce do PCR. Przeprowadziliśmy wstępną denaturację próbek przez 2 minuty w 95 ° C, a następnie 30 cykli w 95 ° C przez 30 s, 55 ° C przez 30 s, 72 ° C przez 1 minutę i wykonaliśmy końcowe wydłużanie w 72 ° C przez 10 min.

Przeszukaliśmy wszystkie biblioteki pod kątem autentycznego DNA poprzez wzbogacenie genomu mitochondrialnego i 50 docelowych loci jądrowych, a następnie sekwencjonowanie na instrumencie Illumina NextSeq500 przez 2 × 75 cykli i 2 × 7 cykli w celu odczytania wskaźników. Wzbogaciliśmy obiecujące biblioteki o około 1, 2 M SNP, jak opisano w ref. 31 , 36 , 66 ,]a następnie zsekwencjonowano na sekwenatorze NextSeq500 stosując sekwencje sparowanych końców o długości 75 par zasad. Podczas przetwarzania obliczeniowego początkowo usunęliśmy identyfikujące sekwencje oligonukleotydowe i adaptery, oddzielając poszczególne próbki od połączonych przechwyceń przez ich identyfikujące 7-parowe indeksy na końcach 5 'i 3′ odczytów i wymagając dopasowań do kodów kreskowych specyficznych dla próbki dołączonych bezpośrednio do sekwencji fragmentów, dopuszczając nie więcej niż jedną niezgodność na indeks/kod kreskowy. Użyliśmy SeqPrep 67 do usunięcia adapterów, a także do łączenia sparowanych odczytów końcowych w pojedyncze sekwencje, wymagając nakładania się co najmniej 15 par zasad (pozwalając na jedno niedopasowanie), używając bazy najwyższej jakości w połączonym regionie, w którym wystąpił konflikt. Użyliśmy samse w bwa (v0.6.1) 68wyrównać odczyty. W eksperymencie wzbogacania mitochondrialnego DNA dostosowaliśmy się do genomu mitochondrialnego RSRS 69 . W eksperymencie wzbogacania całego genomu dopasowaliśmy się do genomu referencyjnego hg19. Zidentyfikowaliśmy zduplikowane sekwencje jako te z tymi samymi pozycjami początkowymi i końcowymi oraz orientacją, a także identycznymi parami kodów kreskowych i zachowaliśmy sekwencję najwyższej jakości z każdego duplikatu. Wykonaliśmy pseudo-haploidalne wywołania SNP dla każdej pozycji, używając losowo wybranej sekwencji obejmującej każde miejsce docelowe, usuwając dwie zasady na końcach każdej sekwencji, aby usunąć mutacje deaminowane i wymagając minimalnej jakości mapowania (MAPQ ≥ 10) i ograniczając się do strony o minimalnej podstawowej jakości (≥20).

Oceniliśmy jakość każdej biblioteki na etapie badań przesiewowych, stosując trzy standardowe metody określania autentyczności starożytnego DNA. Najpierw przeanalizowaliśmy dane genomu mitochondrialnego, aby określić stopień dopasowania do sekwencji konsensusowej, używając contamMix 30 . Po drugie, ograniczyliśmy się do próbek, w których wskaźnik podstawień C-to-T w końcowych nukleotydach wynosił co najmniej 3%, zgodnie z oczekiwaniami dla prawdziwego starożytnego DNA przy użyciu protokołu częściowego leczenia UDG 29. Na koniec wykorzystaliśmy oprogramowanie ANGSD, aby uzyskać konserwatywne oszacowanie zanieczyszczenia chromosomu X osób określonych jako męskie w oparciu o szybkość polimorfizmu sekwencji chromosomu X (mężczyźni mają tylko jeden chromosom X, więc nie oczekuje się wykazać polimorfizm); wykluczyliśmy biblioteki z szacunkami zanieczyszczenia X większymi niż 1,5% 32 . W przypadku próbek, w których wyprodukowano wiele bibliotek dla jednego osobnika, połączyliśmy biblioteki, które przeszły kontrolę jakości i uzyskaliśmy nowe pseudo-haploidalne wywołania SNP.

Określiliśmy haplogrupy mitochondrialnego DNA za pomocą narzędzia haplogrep2 70 , stosując sekwencję konsensusową zbudowaną z odczytów wzbogaconych o genom mitochondrialny, ograniczając się do uszkodzonych odczytów przy użyciu PMDtools 71 (pmdscore ≥ 3) i przycinając 5 zasad z każdego końca, aby znacznie zmniejszyć wskaźnik błędów w wyniku deaminacji.

Starożytne DNA stanowi wyzwanie przy przypisywaniu haplogrup chromosomu Y ze względu na możliwość zanieczyszczenia, uszkodzenia DNA lub brakujących danych. Aby przypisać haplogrupy Y do naszych danych, wykorzystaliśmy zmodyfikowaną wersję procedury stosowanej w analizie współczesnych chromosomów Y w projekcie 1000 genomów 72, który wykorzystuje przeszukiwanie wszerz w celu przeszukania drzewa chromosomu Y. Wezwania wykonaliśmy na drzewie ISOGG od 04.01.2016 [ http://isogg.org] i zmodyfikował wywołującego, aby wyprowadzał wywołania alleli pochodnych i przodków dla każdej pozycji informacyjnej w drzewie. Następnie przypisaliśmy wynik do każdej z haplogrup referencyjnych, licząc liczbę niedopasowań w liczbie obserwowanych alleli pochodnych na tej gałęzi i zmniejszonych mutacjach pochodnych, które były przejściami do 1/3 transwersji, aby uwzględnić błędy związane z uszkodzeniem DNA . Przypisaliśmy próbkę do haplogrupy referencyjnej z najbliższym dopasowaniem na podstawie tego wyniku. Chociaż staraliśmy się wywołać wezwanie dla każdej próbki, zauważamy, że próbki z mniej niż 100 000 SNP mają zbyt mało danych, aby z pewnością zidentyfikować prawidłową haplogrupę, i zachęcamy do ostrożności przy interpretacji tych wyników.

Dane z 22 próbek, które przeszły testy zanieczyszczenia i kontroli jakości, przedstawiono w tabeli uzupełniającej  1 , przy średnim pokryciu 0, 97 × na 1240 k celów SNP i średnio 358 313 SNP objętych co najmniej raz. Tabela według biblioteki opisująca wyniki badań przesiewowych jest przedstawiona w danych uzupełniających  1 . Wykluczyliśmy dwie osoby z dalszej analizy, ponieważ wzorce genetyczne zaobserwowane przy użyciu metody opisanej w Kuhn et al. 73 . Pokazano, że byli krewnymi pierwszego stopnia próbek o wyższym pokryciu w zbiorze danych. Ograniczyliśmy dane z próbki I1183, aby obejmowały tylko sekwencje z dowodami podstawienia C-to-T, aby zminimalizować zanieczyszczenie, które było widoczne w pełnych danych z tych próbek.

Połączyliśmy nowo zgłoszone dane z istniejącymi danymi z Lazaridis i in. 24 oraz Haber i in. 26 , używając programu scalania firmy EIGENSOFT 33 . Powstałe zestawy danych, określane jako HO + i HOIll+, zawierają 20 nowych niepowiązanych próbek połączonych z HO i HOI ll z Lazaridis i in. 24 i 5 starożytnych próbek z Sydonu w Libanie (nazwa populacji: Levant_BA_North) z Haber et al. 26 , odpowiednio. HO+ obejmuje dane od 2891 współczesnych i starożytnych osobników z 591 642 SNP, a HOIll+ zawiera dane od 306 starożytnych osobników z 1 054 637 SNP.

Analiza głównych składowych

Przeprowadziliśmy PCA na zbiorze danych HO + przy użyciu smartpca 33 . Wykorzystaliśmy w sumie 984 współczesnych osobników do PCA i przewidzieliśmy 306 starożytnych próbek. Użyliśmy domyślnych parametrów z ustawieniami lsqproject: YES i numoutlieriter: 0. Oszacowaliśmy ST za pomocą smartpca dla 21 starożytnych populacji Bliskiego Wschodu składających się z więcej niż jednego osobnika i 8 współczesnych populacji przy użyciu parametrów domyślnych, z chowem wsobnym: TAK i fstonly: TAK (Rysunek dodatkowy 1  ) . Przeprowadziliśmy analizy przy użyciu zestawu danych HO +.

Domieszka

Przeprowadziliśmy analizę ADMIXTURE 34 na zbiorze danych HO+. Przed analizami przycinaliśmy SNP w silnej nierównowadze powiązań ze sobą za pomocą PLINK 74 przy użyciu parametrów — niezależnie od par 200 25 0,4. Przeprowadziliśmy analizę ADMIXTURE na 3 00 885 SNP pozostałych w przyciętym zbiorze danych. Dla każdej wartości k między 2 a 14 wykonaliśmy 20 analiz powtórzeń i zachowaliśmy replikację o najwyższym prawdopodobieństwie dla każdego k .

Warunkowa heterozygotyczność

Obliczyliśmy warunkową heterozygotyczność dla każdej starożytnej populacji lewantyńskiej za pomocą popstats 75 . Do tej analizy wykorzystaliśmy zestaw danych HO +, ograniczając się do miejsc SNP ustalonych od pojedynczego osobnika Yoruba i do SNP transwersji, jak opisano w Skoglund i in. 44 .

f -statystyki

Obliczyliśmy statystyki 4 za pomocą programu qpDstat w ADMIXTOOLS 35 z parametrami domyślnymi i trybem 4 : TAK. Obliczyliśmy statystyki 3 za pomocą programu qp3Pop w ADMIXTOOLS 35 , używając parametrów domyślnych, z chowem wsobnym: TAK. Przeprowadziliśmy wszystkie analizy przy użyciu zestawu danych HOIll +, z wyjątkiem statystyki 4 (Levant_BA_North, Levant_BA_South; A, Chimp), którą przeprowadziliśmy na zbiorze danych HO +.

qpAdm

Oszacowaliśmy proporcje przodków w populacji Levant_ChL za pomocą metodologii qpAdm, z parametrami allsnps: TAK i szczegóły: TAK 36 . Przetestowaliśmy zarówno 2-, jak i 3-drożne domieszki między starożytnymi „lewicowymi” populacjami ze zbioru danych HOIll+. Wykorzystaliśmy populacje 09NW zdefiniowane w Lazaridis i in. 24 jako wstępne grupy zewnętrzne. Wybraliśmy dodatkowe grupy zewnętrzne na podstawie statystyk f 4 (Anatolia_N, Europa_EN; A, szympans) i f 4 (Levant_BA_North, Iran_ChL; A, szympans) i powtórzyliśmy qpAdm z każdą dodatkową grupą zewnętrzną dodaną do listy „Prawo”, aż wszystkie oprócz wyeliminowano jeden model z domieszką.

Użyliśmy qpAdm do określenia, czy populacje Levant_BA_South i Levant_BA_North można modelować przy użyciu Levant_ChL jako populacji źródłowej. Przetestowaliśmy dwukierunkowe domieszki między Levant_ChL i każdą inną starożytną „lewicową” populacją ze zbioru danych HOIll +. Przetestowaliśmy również „lewicowe” populacje Levant_N i Iran_ChL. Wykorzystaliśmy populacje 09NW „Right  jako wstępne populacje grup zewnętrznych i potwierdziliśmy nasze ustalenia dla Levant_BA_North przy użyciu grup zewnętrznych zdefiniowanych w Haber et al. 26 . Dodaliśmy dodatkowe grupy zewnętrzne, aby jeszcze bardziej rozróżnić wiarygodne modele i powtarzaliśmy analizę qpAdm, aż wszystkie modele domieszek z wyjątkiem jednego zostały wyeliminowane.

qpWave

Obliczyliśmy minimalną liczbę strumieni przodków wymaganych do modelowania dwóch zestawów trzech populacji lewantyńskich (zestaw [1] Levant_N, Levant_ChL i Levant_BA_South, zestaw [2] Levant_N, Levant_BA_South, Levant_BA_North) przy użyciu metodologii qpWave 37, 38 z parametrem allsnps :TAK.

Porównania częstości alleli

Zbadaliśmy częstości SNP związane z fenotypowo ważnymi funkcjami w kategoriach metabolizmu, pigmentacji, podatności na choroby, odporności i stanu zapalnego w Levant_ChL w połączeniu z populacjami Levant_N, Levant_BA_North, Levant_BA_South, Anatolia_N i Iran_ChL, z częstościami alleli dla trzech połączonych populacji kontynentalnych populacje (AFR, EAS, EUR) w fazie 3 projektu 1000 genomów zgłoszone, jeśli są dostępne. Obliczyliśmy częstości alleli w każdym interesującym miejscu, obliczając prawdopodobieństwo częstości alleli referencyjnych populacji na podstawie danych, stosując metodę ustaloną w Mathieson i in. 31 . Dla każdej populacji o wielkości N obserwujemy sekwencje Ri , które posiadają allel referencyjny z całościi sekwencje. Prawdopodobieństwo odniesienia częstości alleli p k , n , p ) = , w każdej populacji dane D  = { X , N , ja , ja } wynosi L ( p ; D ) =  gdzie B (ja 1N{P2(RI,TI– ε )+2p( 1 – p )b(RI,TI0.5 )+(1str)2(RI,TIε )}∏�=1�⁡{�2�(��,��,1−ε)+2�(1−�)�(��,��,0,5)+(1−�)2�(��,��,ε)}(Nk)Pk− s)– k(��)��(1−�)�−� wynosi dwumianowy rozkład prawdopodobieństwa, a to małe prawdopodobieństwo błędu, które dla naszych obliczeń ustawiliśmy na 0,001. Oszacowaliśmy częstości alleli, maksymalizując liczbowo prawdopodobieństwo dla każdej populacji.εε

Dostępność danych

Dopasowane sekwencje są dostępne w Europejskim Archiwum Nukleotydów pod numerem dostępu PRJEB27215. Zestawy danych genotypów wykorzystywane w analizie są dostępne pod adresem https://reich.hms.harvard.edu/datasets .