블로그가 초기화되기 전에 써놨던 글인데, 하드 구석에서 썩어가고있는게 아까워 올립니다. 생물학 재밌습니다. 여러분도 생물학 하세요. 물론 암울한 자연과학계의 실태와 어두컴컴한 앞날은 책임 지지 않습니다! 또한 본 글에는 여러 오류가 있을 수 있습니다. 그러실 경우 죄송합니다.
DNA가 ATCG의 네개의 염기서열로 이루어져 있는건 대부분 다들 알고 있을 것이다 (모르면 배우자). 이런 DNA 염기가 무려 32억개 모여서 인간의 DNA, 즉 휴먼 '게놈' 을 만들고 (약 1.8m), 세포는 휴지 말듯이 DNA를 돌돌 말아내어서 어떻게든 10마이크로미터 (약 10^-6m) 정도 되는 세포핵 속에 이 DNA를 쑤셔 넣는다. 이 갑갑하게 구겨져있는 DNA에서 인간이 살아가는데 필요한 모든 단백질을 (아니, 거의 모든) 만들어내서 살아가니, 정리정돈 스킬이 만렙에 달한 세포들이라 할 수 있다.
쎾쓰한 과학자들에 의해서 인간의 게놈 프로젝트가 완성된 후, 많은 생물학자들은 30억개가 넘는 게놈이 차곡차곡 세포 안에 들어있는 것을 보며 경탄하였다. 그리고 무었을 했을까? 당연히 게놈을 들여다 보면서, 어떤 부분에서 단백질이 생성되는지를 보는 것이다. 당연히 생각은, 아, 우리 인간은 존나 우월하니까 단백질이 생성되는 부분도 우글우글하겠지.
그리고 당황했다.
32억개나 되는 염기서열의 숫자에 비해 단백질이 너무 적은 것이다!
과학자들은 인간의 염기서열에서 적어도 십만 개의 단백질을 만들어내는 유전자를 발견할 수 있으리라 기대했다. 그런데 실제 발견된 수는 채 2만 5천개도 되지 않는 것이였다 (2014년 1월에 발표된 눈믄에서는 이 단백질 숫자를 1만 9천개로 줄여 버렸다)
이 아햏햏한 발견은 인간 말고 다른 생명체의 게놈 지도를 작성하기 시작한 후 더욱 심화되었다. 어떤 도룡뇽들은 게놈의 크기가 무려 120억개, 즉 인간의 네배다. 하지만 도룡뇽들이 인간보다 더 발전한 생물은 아니지 않는가. 단백질을 만드는 유전자의 수도 적고.
그래서 결국 게놈의 크기와 생명체의 발전됨을 엮어 보려던 과학자들은 GG를 치게 되었다.
염기서열중 '단백질을 만드는 유전자' 가 위치하지 않는 곳의 예. S.Cerevisiae 효묘균의 X염색체의 지도이다. 빨강색의 YJL167W 유전자 (~105k) 와 빨갛고 노란 YJL168C (Set2 HMT) 유전자 사이의 공간이 텅 비어 있는데, 이런곳을 non-coding DNA, 즉 '단백질을 만들지 않는 DNA' 라고 부른다. 좀더 포괄적으로 보면 '유전자 사막' (Gene Desert) 에 포함되기도 한다.
그리하여 게놈의 크기와 생명체의 진화가 서로 딱히 연관성이 없다는 것이 확인된 후 (일명 c 패러독스), 과학자들은 대체 어찌하여 이렇게 거대한 게놈에 이렇게 적은 양의 유전자가 있는지 (즉, 이다지도 비효율적으로 크기를 쓰는지. 하드로 비유해보면 1TB하드에 쓰는 공간은 20GB고 쓰지도 않는 잡다한 파일이 980GB를 차지하는 격이다) 알아보기 시작하였다. 그리고 얼마 있어 꽤나 흥미로운 것을 발견한다.
염기서열 ATCG를 사용해서 유전자를 만들어 보자. 대충 AACACG 가 유전자 A라고 하겠다. 그리고 GGGGGG가 유전자 B, AAAACC 가 유전자 C. 이걸 유전자 지도에 늘어놓아 보면, 단백질을 만드는 유전자만 나타나게 했을 경우 이렇게 보일 것이다.
………………AACACG…………………………GGGGGG……………………………………………………………AAAACC……………………………
여기서 ….. 는 유전자를 만들지 않는 DNA를 의미한다. 기존의 과학자들은 이런 것들은 그냥 쓰레기 DNA (스이긴토정크 DNA)라 치부하고선 그냥 무시하고 지나갔다.
헌데 이전에는 무시하던 이 부분을 다시 살펴보기 시작하자, 아주 이상한 것이 보이기 시작한 것이다.
AGTCTGACGTTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACATACGATCGATCGATCGTACGTACGTATTAACATTAACATTAACATTAACACGTACGACAGTAACACGTTAACAGGACCAGTTAACATTAACATTAACATTAACATTAACATTAACAAGGGAGCAGATACTATCACTGTTAACATTAACATACTACTATGTGGGGGGTTAACATGCAACTACTACTACTATTAACATTAACATTAACATTAACATTAACATTAACATTAACACTACTCATCAATCTCTATCATACTACTCATTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACATACTACTCTTAACATTAACATTAACATTAACATTAACATTAACATTAACAAACTACTACTACTACTACTCATACTACTAACTACTCTGGGGAGAGTAGTAGTAGTCTAGTAGTCTCCGCGCTTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACAGCGCGCGCGCGCGCGAAAACCGGGGGGGGCCCGCGCGCGCGCGGCGCTTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACATTAACAAACGTACTGGCATGATTTAACATTAACATTAACATTAACATTAACACAGTCTAGCTACGACGATCGATTTAACATTAACATTAACATTAACATTAACATTAACACGATCGATGCATCGATCGACTGTTAACATTAACA
보시다시피, 기존에 쓰레기라고 무시했던 부분에는 TTAACA라는 염기서열이 계속해서 반복되고 있었다. 엄청나게 많이.
그 수만 16억 개가 넘는, 인간 게놈의 절반이 넘는 숫자가 이런 반복되는 염기서열로 이루어져 있었던 것이다.
물론 실제 유전자는 6개의 염기가 아닌 몇천개에서 몇십만개의 염기고, 이런 반복되는 서열도 50개가 반복되는 서열에서 5천개가 반복되는 것까지 다양하다. 하지만 어떻게 보면 소름 끼치는, 이런 엄청난 수의 반복 서열이 인간 유전자 속에 잠들어 있었다는 것 또한 사실이다.
그후, 여러 연구에 의해 이런 반복서열은 여러 생명체들에게서 발견되었다. 가까이는 쥐같은 포우류에서 옥수수같은 식물까지. 어떤 반복 서열은 인간에만 있었고, 어떤 반복 서열은 인간, 쥐 등의 포우류에, 어떤 서열은 옥수수에서도 인간에서도 동일하게 나타났다.
이건 대체 무엇일까.
인간, 인간/포우류, 인간/포우류/식물 등으로 세분화할수 있다는 걸 알아낸 과학자들은 이것이 진화의 단계에서 축적되온 어떤 것이라 가정하고, 이 반복 서열들을 고대에서부터 현대까지 발견된 수많은 생명체들의 유전적 정보들과 모조리 대조를 시켰다. 그러자 보이는 것이 있었고, 과학자들은 그들의 존재에 전율했다.
이 염기서열들은, 생명의 시작으로부터 끊임없이 다른 생물들을 침략하던 바이러스들의 유전자였다!
수십억 년 전부터 이어진 감염과 침략의 흔적에 과학자들은 이 반복되는 서열들에게
LINE-1
Long Interspread Nuclear Element
라는 이름을 붙였다. 후에 다른 반복되는 그룹은 L-2, L-3 LINE으로, 좀더 짧은 놈들은 SINE으로, 다른 특징을 가진 애들은 ERV 등으로 세분화되어서 불리게 된다.
이 라인은 무엇인가?
'센트럴 도그마' 라는 것, 기존적인 생물을 배운 사람이라면 다들 알고 있을 것이다. 단백질에 관한 유전정보를 담고 있는 DNA에서 RNA가 '전사'되며, RNA에서 단백질이 '번역' 되어서 나온다.
이 '기본적, 그러나 모든 생물이 따르는 자연의 이치' 라 명명되어진 것이 바로 '센트럴 도그마' 다. 오랫동안 생명체의 절대적인 진리라 여겨진 이 법칙은, 그러나 극악무시한 성병 에이즈 (AIDS) 를 유발하는 HIV (Human Immunodeficiency Virus - 인간면역결핍바이러스) 등의 발견으로 깨어진다. 이들은 '레트로바이러스' 라는 새로운 분류로, RNA 에서 DNA를 만들어 낼수 있는, 즉 '역전사' 를 할수 있는 능력을 가진다. 감염 대상인 세포에 침투할 때 RNA를 이용해 침투하고, 숙주의 세포에 들어간 RNA에서 DNA를 만든 다음 숙주의 DNA, 즉 게놈에 구멍을 내고 그 속에 자기가 들어가 숙주의 DNA인 척 하는 아주 비범한 류의 바이러스다. 바이러스가 완전히 숙주의 DNA 속에 숨고, 숙주 속에 숨은 바이러스 DNA를 사용해 바이러스 RNA, 그리고 바이러스 단백질을 만들어 내는 터라, 세포의 기본적인 DNA 수리 체계가 아예 '원래 내 것이였던 DNA' 로 인식해 버려 고치질 않는다.
게다가 원래 RNA에서 DNA를 만들어 낼수 있는 능력이 있는 바이러스들인지라, 원한다면 얼마든지 '숙주의 DNA 속에 숨은 바이러스 DNA에서 바이러스 RNA를 만든' 다음, 그 '새로 만들어진 RNA에서 바이러스 DNA를 만들어 그걸 또 숙주 DNA의 다른 부분에 잠입해 버리는' 저글링스러운 복사가 가능하다. 그렇게 해서 바이러스 DNA 는 숙주 세포의 DNA 속에서 계속해서 늘어나고, 늘어난 바이러스 DNA로 또 DNA를 만들어 또 숙주 DNA랑 합체시키는 악순환이 반복되는 것이다.
이쯤 되었으면 알 것이다. L-1 라인 엘레멘트, 인간뿐만이 아니라 수많은 포우류에서 발견되는 반복되는 염기서열은 이 바이러스들이 생명체의 DNA에 잠입한 후 엄청나게 겁탈자가복제한 흔적인 것이다. 그 복사가 얼마나 무지막지했는지는, 32억개나 되는 인간 유전자 중 무려 16억개가 이들 복제 유전자로 이루어져 있다는 것에서 대충 짐작할 수 있겠다.
그럼 궁금한 사람이 있을 것이다. 아니 그럼 우린 왜 건강한데?
간단하다. 거의 대부분의 이 바이러스의 흔적인 반복염기들은 '죽어 있는' 상태이기 때문이다.
우리에겐 천만 다행이게도, 대부분의 이 반복서열은 바이러스로 활동을 하지 않는다. 이유는 여러 가지가 있는데, 일단 하나는 복제 단계에서부터 망가져 있던 경우. 인간과 다른 생명체들의 '전사 효소', 즉 DNA에서 RNA를 만드는 효소가 칼같은 정확성을 자랑하는데 비해 RNA에서 DNA를 만드는 '역전사 효소' 는 일처리 방식이 참으로 개판인지라 끝내주는 오차율을 자랑한다 (ATCG를 만들어야 하는데 AGGG를 만들어 버린다던지가 가능한 나사 빠진 효소다). 이 효소의 엉망인 DNA 생성 능력 덕분에 에이즈 등의 바이러스성 질병에 백신을 만들기가 정말 힘들기도 하지만 (자꾸 효소가 잘못된 DNA를 만들면 바이러스가 변이해 버리고, 기껏 이전 바이러스를 잡으려고 만들었던 백신은 쓰레기가 되어 버린다) 마찬가지로 기껏 DNA를 복사했더니 바이러스를 만들 수 없는 고자 DNA가 되는 경우도 많다.
두 번쨰 이유로는, 저번에 말했던 것과 같은 DNA의 변이. 자외선, 흡연, 알코올, 화합물 등이 우리 몸의 DNA에 안좋은 것처럼, 이것들은 숙주세포의 DNA 속에 융합된 바이러스 DNA에게도 똑같이 안 좋다. 이런 것들 덕분에 바이러스 DNA가 망가질 수도 있는 것이다. 어, 하지만 이렇게 많은 바이러스 DNA들이 다 이걸로 망가질 수 있나? 라고 생각할 수도 있겠지만, 무려 몇억 년을 걸친 진화를 통해 축적된 망가뜨림이라는 것을 기억하자.
마지막으론, 세포 또한 멍청이가 아니라는 것. 진화를 통해 세포들은 대충 '아 이런, 이 DNA가 좀 이상한데. 이 부분을 계속 냅두면 큰일 나겠다' 라 생각하고, 온갖 단백질들을 이런 반복염기서열들이 차지하고 있는 게놈 부분에 때려박아 어떻게든 이들 반복DNA가 RNA를 만들지 못하게 막는 것이다.
대충 이렇다고 보면 된다. 위쪽의 유크로마틴, 즉 '몸에 필요한 단백질을 만드는 유전자가 위치한, RNA를 만들어야 하는 부분' 에는 단백질들이 꽤나 듬성듬성하게 있어, RNA 를 만드는 효소들이 쉽게 비집고 들어가 RNA를 만들수 있게 해 준다. 하지만 밑 같이, 'RNA를 만들지 말아야 하는 부분', 즉 헤트로크로마틴에는 단백질이 아주 빽뺵하게 차 있어 RNA를 만드는 효소들이 접근을 할수 없게 막아 버린다. 어떻게 보면 폭도들이 날뛰는 것을 단백질 군대를 통해 납작하게 눌려 버린 것으로 볼 수도 있을 것이다. 이런 'RNA 전사를 막는 부분' 을 관리하는 단백질들은 비교적 최근에 발견된 것으로, H3K36me를 관리하는 Set2, H3K9me3를 관리하는 Suv39h 같이 족히 수백개는 됨직한 단백질들이 이 '활동해서는 안 되는' DNA 부분을 막기 위해 오늘도 일하고 있다.
게다가 몸은 듬성듬성 이득을 취할 줄도 알아서, 몇몇 죽어버린 바이러스 DNA는 지금 인간의 단백질을 만들기 위해 사용되고 있기도 한다. 예를들어, 지금 밥을 먹는 여러분의 입 안에서는 AMY1C 유전자, 간에서는 BAAT 유전자가 활발하게 전사되고 있다. AMY1C의 유전자에는 ERV라는 고대의 바이러스 유전자가 그냥 통쨰로 들어가 있다! BAAT에도 유전자의 절반 정도가 쓰이고 있다. 이 둘이 없으면 여러분의 침은 탄수화물을 소화하지도 못하고, 쓸개는 쓸개액을 만들지 못할 것이다.
물론 이런 사실들이 발견된 후, 과학자들은 '하지만 이런 잠들어 있는 LINE 이 꺠어나 버리면 어떻게 되는가?' 라는 의문을 가졌다. 실제로 인간의 LINE의 대부분은 망가진 부분 없이 멀쩡한 놈들이다. 즉 LINE의 제어가 풀리면 바로 RNA에서 DNA를 만드는 역전사 효소가 만들어져서, LINE의 RNA를 DNA로 만들어 투입할 수 이을 것이라는 것이다.
어떻게 될까? LINE이 잠에서 꺠어나 RNA를 만들고, 거기서 다시 DNA를 만들면 그 DNA는 세포 게놈의 아무 부분에나 무작위로 넣어질 것이다. 까맣게 잊혀진 고대의 바이러스가 다시 부활해서 자가 복사를 다시 시작하는 것이다. 새로운 DNA가 넣어지는 곳이 별 문제 없는 곳이라면 좋겠지만, 만약 이 바이러스 DNA가 p53 유전자를 만들어내는 부분으로 들어가 버리면 어떻게 될까? P53는 제대로 일을 할수 없는 장애 단백질이 되어버리고, p53가 관할하는 모든 기능은 컨트롤러를 잃고 폭주할 것이다. 암의 시작이다.
실제로 몇몇 암에서는 L1 LINE이 잠들어있는 부분의 관리가 제대로 되지 않는것이 발견되었다. 보통 인간의 몸이 '잘 시간이다!' 라고 인지를 할 때 밤일을 하거나 하는 이유로 깨어 있는 경우에도 L1 LINE부분의 유전자가 불안정하게 된다. 밤샘 게임하는 여러분에게 말하는 것이다! 세렌도 제길
결국 우리는, 언제 꺠어날 지 모르는 폭탄을 가지고 살아가는 셈이다. 더욱 억울한 것은, 이건 우리가 무슨 잘못을 해서 들어온 게 아니다. 수십억년에 걸쳐 축적된 폭탄들인데 우리가 뭘 할수 있을까? 다만 최대한 바른 생활을 해서 (담배를 피지 말자!) 적어도 LINE을 관리하는 단백질들이 멀쩡하기를 빌 뿐…
그러니 죽기 전에 쎾쓰를 하지 못하고 죽는 것은 크게 슬픈 일이라 할수 있을 것이다!!으앙