Жизнь VS Энтропия - страница 8
Рис. 2. Молекула белка аспартатаминотрансфераза (АСТ)
Эти свойства белков позволили им образовать следующий по уровню сложности элемент жизни – клетку. Клетка является уже не просто белковой структурой, а процессором, способным выполнять записанные в генетических текстах программы. В клетках высших форм жизни (эукариот) важнейшей операцией является исполнение алгоритма деления (митоз). В процессе исполнения этого алгоритма происходит копирование генетических текстов путем удвоения хромосом и образование пары генетически эквивалентных клеток. Взаимодействие между клетками приводит к их дифференциации и образованию все более сложных структур – органов. Многократное повторение митоза приводит, в конечном счете, к образованию полноценных особей различных видов эукариот. Можно сказать, что человек – это некая n-ричная белковая структура. Компактные образования внутри клетки (органеллы) по-сути являются блоками молекулярного компьютера. Ядро и ядрышко это хранилище самой ДНК («накопитель» генетической памяти). Для достижения клеткой состояния, способного к митозу, она непрерывно производит весь необходимый для поддержания ее статуса живого объекта комплекс белков – рис. 3.
Рис. 3
Каждый ген отвечает за производство определенного белка, в некоторых случаях – нескольких белков. Для разделения текста ДНК на предложения-гены в нем существуют специально закодированные знаки – «генетические точки». Производство белка начинается с процесса, называемого транскрипцией. В транскрипции участвует только одна из ветвей ДНК, которая определяется по наличию определенного маркера-стартера начала текста. Суть этого процесса состоит в отображении предложений языка ДНК на язык другого носителя генетической информации – матричных рибонуклеиновых кислот (мРНК). Также этот носитель называют информационной РНК (иРНК). Термин транскрипция здесь отражает аналогию по переписыванию текста, например, английского, в алфавит звуков речи (фонем). При этом могут выбрасываться (сплайсинг) и трансформироваться куски текста ДНК (сравните английские daughter и [do:te]). Для определения направления чтения текста мРНК на его краях образуются специальные маркеры «начало» и «конец». Оформленный таким образом текст затем транслируется в молекулы одного или нескольких белков. Термином трансляция в информатике принято называть перевод с одного языка на другой. В данном случае производится перевод предложений языка мРНК на язык белков.
Предложения языка мРНК обладают некоторой «грамматикой». Во-первых, имеются химические знаки «начало» и «конец», которые не определяют формулу белка, а лишь управляют процессом трансляции (они получили названия «5’-кэп» и «3’-кэп»). Эту же роль играют примыкающие к ним не транслируемые области (НТО). Собственно формулу белка определяет кодирующая последовательность – рис. 4.
Рис. 4. Грамматика предложений мРНК.
Алфавит и, соответственно, текст кодирующей последовательность мРНК наследуется от ДНК заменой одной буквы (тимин (Т) на урацил (У)). Иначе говоря, это четверка букв-нуклеотидов (А, Г, У, Ц) или в латинском алфавите (A, G, U, C). Алфавит языка белков содержит двадцать букв, химически представляющих собой остатки α-L-аминокислот. Вопрос «как кодирующие последовательности мРНК из четырех нуклеотидов хранят информацию о последовательностях белковых молекул из двадцати аминокислотных остатков» занимал умы многих выдающихся ученых в 50-е годы. Среди них физики Г. Гамов и Р. Фейнман, биохимики Ф. Крик и Дж. Уотсон и многие другие. Были предложены различные виды генетического кода, основанные на чисто информационных подходах. В теории информации к тому времени уже были решены многие задачи оптимального кодирования сообщений. Казалось, что генетический код может иметь отношение к одному из таких решений. Наиболее компактный код при кодировании сообщений относится к классу «кодов без запятой», т. е. в алфавите нет выделенного знака, разделяющего отдельные смысловые единицы («слова»). В современной письменности естественных языков таковыми служат «пробел», «запятая» или другие знаки препинания. Если полагать, что «запятые» проставляются безошибочно, то выделение отдельных слов – тривиальная задача. Но, например, в новгородских берестяных грамотах разделители почти не вписывались в текст, и эта задача становилась иногда весьма трудной, а при определенном контексте, однозначно неразрешимой. Коды без запятой, обладающие свойством однозначного решения такой задачи называются префиксными. Информатиками еще в начале 60-ых годов XX-го века найдены оптимальные (имеющие статистически минимальную длину сообщений) способы построения кодов без запятой (код Фано, код Хаффмена). Одна из гипотез относительно генетического кода, выдвинутая Ф. Криком, базировалась именно на этих идеях. В коде без запятой слова имеют разную длину, но любая их комбинация, даже записанная подряд без разделителей, может быть декодирована, т. е. разделена на слова, единственным образом. Эта идея казалась весьма продуктивной, а при некоторых предположениях даже объясняла возникновение сакрального числа 20 аминокислот. Но в итоге оказалась неверной.