Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Одесский национальный университет им. И.И. Мечникова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Биоинформатика методичка.doc

Скачиваний:

353

Добавлен:

20.05.2015

Размер:

13.79 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1713 14 15 16 17 > Следующая >>>

Конструирование филогенетических деревьев в программе matlab

Поскольку работа в программе Matlab основывается на матрицах, то и алгоритмы, заложенные в ней для построения филогенетических деревьев, относятся к фенетическому подходу, не имеющему никакого отношения к исторической модели родства между последовательностями. В этом случае начинают с измерения расстояний между последовательностями и строят дерево с помощью процедуры иерархический кластеризации.

Кластеризацией называется сведение вместе сходных предметов (или признаков), различая классы объектов, более сходных с любыми другими, чем те объекты, которые не входят в эти классы.

Иерархическая кластеризация – это многоступенчатое группирование кластеров из кластеров.

В общем виде программа в Matlab для построения филогенетического дерева выглядит следующим образом:

s= fastaread(' Accession.fasta') – чтение биологических данных из файла в fasta формате

data(1).Sequence=s.Sequence(1:end)

data(1).Header='Accession'; – формирование массива данных для дальнейшей обработки

distances = seqpdist(data, ...'PropertyName', PropertyValue, ...) – расчет попарного расстояния между дистанциями

tree= seqlinkage(distances,'single',vir) – конструирование филогенетического дерева на основании попарной дистанции между последовательностями

h = plot(tree,'Type', 'radial','orient','left') – визуализация сконструированного объекта в виде филогенетического дерева

Для использования различных методов построения филогенетических деревьев изменяются входящие аргументы функции. Рассмотрим каждую из функций более подробно.

Чтение программой Matlab данных из файла в fasta формате – функция fastaread Синтаксис

[Header, Sequence] = fastaread(File)

Описание

Функция fastaread считывает данные из файла в FASTA формате в структуру MATLAB со следующими полями.

Header - Информация о последовательности (заголовок)

Sequence – Однобуквенная запись нуклеотидной последовательности, сохраняющейся как строка букв

Пример использования функции чтения данных из файла в FASTA формате

Перед загрузкой данных в рабочую среду Matlab биологические последовательности, полученные из баз банных или других источников, сохраняют в файле с расширением fasta в отдельной рабочей директории. Совет. Для выполнения этого действия откройте программу «Блокнот» и вставьте свою последовательность в FASTA формате. Описание этого формата было приведено выше. Дайте имя файлу в соответствии с ACCESSION number вашей последовательности. Когда даете расширение при сохранении в «Типе файла» выберете «все файлы».

Используя функцию fastaread можно прочитать и загрузить эти данных для дальнейшего использования в программе Matlab .

s= fastaread('NC_010658.fasta');

В рабочей области видим формирование бинарного массива данных

s =

Header: [1x127 char]

Sequence: [1x1741 char]

Если у вас не очень много файлов и они не большие по размеру, то лучше сохранить их всех в одном файле с расширением .fa. Для создание такого исходного файла так же откройте программу «Блокнот» и вставьте свои последовательности в FASTA формате. Используя функцию fastaread можно прочитать и загрузить эти данных для дальнейшего использования в программе Matlab .

seqs = fastaread('pf01.fa');

В рабочей области видим формирование массива данных

seqs =

8x1 struct array with fields:

Header

Sequence

При наличии версии Matalb старше 8-ой, возможна загрузка данных непосредственно их базы данных, при наличии подключенного Интернета.Например, получение набора данных из GenBank. В данном случае использованы внутренние номера базы данных, соответствующие нуклеотидным последовательностям D-петли, изолированной из различных видов.

% Species Description GenBank Accession

data = {'German_Neanderthal' 'AF011222';

'Russian_Neanderthal' 'AF254446';

'European_Human' 'X90314' ;

'Mountain_Gorilla_Rwanda' 'AF089820';

'Chimp_Troglodytes' 'AF176766';

'Puti_Orangutan' 'AF451972';

'Jari_Orangutan' 'AF451964';

'Western_Lowland_Gorilla' 'AY079510';

'Eastern_Lowland_Gorilla' 'AF050738';

'Chimp_Schweinfurthii' 'AF176722';

'Chimp_Vellerosus' 'AF315498';

'Chimp_Verus' 'AF176731';

};

for ind = 1:length(data)

primates(ind).Header = data{ind,1};

primates(ind).Sequence = getgenbank(data{ind,2},'sequenceonly','true');

end

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 1713 14 15 16 17 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.05.201563.39 Кб20Бернська конвенція.docx
#
01.03.2025112.13 Кб0БЖД - метод матер - правлені.doc
#
01.07.202572.7 Кб0Билет 1.doc
#
01.05.202552.41 Кб0Билет1.docx
#
06.09.2019195.58 Кб1билеты бизнес оим 2012.doc
#
20.05.201513.79 Mб353Биоинформатика методичка.doc
#
20.05.20159.4 Mб218биология 10-11.pdf
#
01.05.202569.56 Mб5Биофизика Губанов 1978.rtf
#
01.07.2025291.84 Кб0Биржи - контрольна робота.doc
#
20.05.201569.57 Кб74Блок 1.История и теория социологии.docx
#
20.05.2015111.15 Кб71Блок 2.Методы соц исследований.docx

Конструирование филогенетических деревьев в программе matlab

Чтение программой Matlab данных из файла в fasta формате – функция fastaread Синтаксис

Описание