Візуалізація генів методи і проблеми

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Візуалізація генів: методи і проблеми

Оскільки наші здібності генерування послідовностей даних продовжують зростати, аналіз даних, генерування даних є лімітуючою стадією в галузі геноміки.

Тут ми пропонуємо керівництво по візуалізації даних, геномні кошти, які полегшують аналізування завдань і дозволяють досліджувати, вивчати, тлумачити і управляти своїми даними, а в деяких випадках виконувати обчислення миттєво. Ми будемо обговорювати графічні методи, призначені для аналізу de novo послідовностей та зчитування вирівнювання, геномного перегляду в майбутньому. Вивчення геномів у значній мірі дозволило говорити про геноміки, як про цифрову науки, і зробило можливим з появою технології секвенування, виявляти геномні послідовності для нуклеотидного аналізу. Поява великих даних про геномної послідовності ресурсів відкрило новий інтерфейс комп'ютерної науки, яка використовується в таких областях як біоінформатика і надає можливості вирішення біологічних задач за допомогою обчислень. Останні інновації в галузі технології секвенування забезпечують безпрецедентну здатність для генерації даних. Зараз більш ніж коли-небудь нам необхідні інтуїтивні та оперативні дані досліджень для аналізу.

Хоча безліч геномних аналізів для даних задач можуть бути виконані за допомогою автоматичних процесів, але деякі дії ще як і раніше вимагають людських суджень і часто з обмеженою швидкістю. Візуалізація може посилити наші здатності міркувати про складність даних, тим самим підвищуючи ефективність ручного аналізу.

У деяких випадках, відповідне зображення дає очевидне рішення.

Враховуючи важливість людських інтерпретацій особливо на ранніх етапах гіпотези поколінь біологічних досліджень, візуальні засоби можуть також стати цінним доповненням до автоматизованих обчислювальним методам і дозволяють отримувати нам наукове розуміння про великі геномних наборах даних. Візуальні та автоматизовані підходи є особливо потужним засобом, коли використовуються в поєднанні, наприклад, користувач може легко контролювати і проводити розрахунки за цими даними, багато разів їх, уточнюючи і аналізуючи.

Одна з проблем при розробки візуальних засобів полягає в ухваленні рішення графічного подання по суті, тобто як дані кодуються за кольорами, формі або перетворені на різних рівнях. Вибір подання може або допомагати, або заважати можливостям для користувачів до інтерпретації даних і в ідеалі повинен бути розроблений так, щоб полегшити аналіз задачі. Наприклад, перебудову генома якомога легше уявити як дуги на колі, ніж на лінії. Геномні дані, узяті, з різних джерел при використанні різних методів супроводжуються експериментальними похибками. Важливо, що візуально представлені і зафіксовані ці технічні невизначеності і будь-які невідповідності.

Існує також значне біологічне розходження між індивідуумами, які необхідно відрізняти від технічних змін описаних вище. До доповнення до завдань вибору відповідного візуального представлення, деякі види первинних даних не представлені через надмірні вимог зберігання в мережі і дозволяють в режимі реального часу взаємодіяти з великими наборами даних, які є нетривіальними.

Цей огляд наводить приклади трьох основних користувальницьких завдань: 1) аналіз послідовності даних, як у контексті складання заново і рессеквенірованіе експериментів, 2) перегляд анотацій і зіставлення експериментальних даних з посиланням геномів, і нарешті, 3) порівняння послідовностей з різних організмів або окремих індивідуумів.

Методи візуалізації в цих областях перебувають на різних стадіях розвитку, і ми будемо обговорювати їх переваги та недоліки. Одним з важливих моментів є те, що область геноміки швидко розвивається. Хоча ми намагалися забезпечити керівництво по методам в цій області, але цілком імовірно, що нові інструменти і формати даних з'являться, в самому найближчому майбутньому і ми обговоримо деякі з відповідних проблем. Ми закликаємо читачів, взяти до уваги ресурси онлайн, такі як SEQanswer, де описані найбільш сучасні засоби розвитку.

Візуалізація секвенування даних

Інтерпретація первинних даних з машинного секвенування починається з автоматизованої обробки даних. База виклику та якість розрахунків слід у разі послідовної збірки геномів або зчитування регулювання за посиланням у разі рессеквенірованія. Останні інновації в технології секвенування супроводжувалися зростанням нової збірки і погодженням програм, щоб впорається з більш короткими довжинами зчитування і великим числом операцій зчитування (для оглядів см.раб.1, 2), але стандартів не було досягнуто. Для деяких завдань аналіз візуальної перевірки цінний у тлумаченні та перевірці автоматизованих заходів, їм можна керувати за допомогою як біологічного, так і алгоритмічного шляху.

Наприклад, виявлення автоматизованого Однонуклеотидний поліморфізму на основі даних секвенування залишається незавершеним, і візуальний огляд використовується до цих пір для оцінки окремих випадків і для біологічних результатів і технічних спостережень, які можуть бути використані для поліпшення прогнозування алгоритму. У цьому розділі йдеться про повідомлення, які висвітлюють графічні засоби для аналізу послідовності.

Візуалізація вирівнювання

Аналіз вузлів і зчитування вирівнювання часто передбачає аналіз послідовності власне зчитування, а всі кошти, перераховані в таблиці 1, забезпечують огляд уніфікованих зчитувань основ. Зчитування послідовності, як правило, надано у вигляді рядка, відбувається горизонтально зліва направо і укладається вертикально. У разі збирання, користувач може сканувати зчитуванням з стека відповідного стовпця.

Основна властивість часто ідентифікується з градацією сірого і грунтується на протиріччі з узгодженням, що надає особливого значення квітам. Деякі інструменти мінімізували візуальні перешкоди, в стеку зчитування виділяючи тільки протиріччя і приховуючи всі послідовні пари підстав (наприклад, програма інтегративної геноміки, Національний центр біотехнологічної інформації, перегляд програми архіву асамблеї, вирівнювання тексту в програмі перегляду SAM tools). Більшість коштів, побудованих до появи наступного покоління послідовності, продовжують надавати підтримку візуалізації основних первинних даних для Сенгер зчитування окремих слідів перегляду. Наприклад, в популярній програмі Consed «слід» вікна може бути запущений з «відповідного вікна» і рух курсору синхронізується. Цей режим дозволяє користувачеві перевіряти позиції конфліктуючих баз і виявляє джерело невизначеності в рамках первинних слідів безпосередньо.

У значній мірі NGS дані змінилися настільки, що користувач зможе оцінити невизначеність основних консенсусів. Наприклад, Consed дозволяє користувачеві перевіряти недопрацьовану Рош 454 послідовності даних, а у разі Illumina і Applied Biosystems забезпечує надійність інформації, у разі якщо немає недопрацьованих слідів зчитування, а є тільки дані у вигляді зображення (Детальна інформація про ці технології секвенування розглядається в іншому місці) . Consed і аналогічні програми не відображають первинні зображення даних, зокрема тому, що їхні великі розміри роблять їх занадто дорогими для того, щоб зберігати їх у мережі, а також повільно відображаються на екрані

Однак висока швидкість зчитування, що граничить з генеруванням NGS часто, полегшує, можливість пильно вивчати будь-яке зчитування. Користувач може виявляти або обчислювати одне підозріле підставу протягом одного зчитування, порівнювати з відповідним підставою в інших зчитування вирівнювання розміщених в інших місцях.

Пристрій виведення автоматичного секвенування збирає незавершені програми і повторює місце зчитування, зчитуючи на відстані.

Наступний крок «завершення» включає в себе виняток прогалин, виправлення неправильно зібраних і можливість виправлення помилок узгоджених основних компонентів. Спеціалізована обробка програмного забезпечення спрощує цей процес за рахунок автоматизації і дозволяє користувачеві виконувати перераховані вище завдання. У деяких випадках автоматичної обробки достатньо, наприклад, у виконанні Autofinish, так як ця програма, розглядає вихід зборів програм і пропонує введення лабораторних даних (наприклад, специфічних праймерів для ПЛР).

Тим не менше, в інших ситуаціях ручної перевірки та редагування необхідно до доповнення з автоматизації прогалин Consed і комерційно доступних Sequencher (ген кодує корпорація) і Lasergene (DNASTAR) широко використовувати обробні програми, які надають багаті функціональні можливості редагування і відстеження історії і дозволяють користувачеві окремо , вручну приєднуватися до сусіднього, що відрізняє їх від статистичного вирівнювання програм перегляду, які не можна редагувати (таблиця 1).

У більшості послідовностей протоколів діапазон розмірів фрагментів геному невідомо. Послідовність зчитування, отримана з різних кінцях одного і того ж джерела геномного фрагмента («математичної пари»), тому припускаємо інтервал («вставити розмір») і вважаємо орієнтацію (1 верхня нитка зчитування і одна нижня нитка зчитування). Одна з пар, яка порушують ці просторові обмеження, може бути використана для виявлення незібраних, а одна з послідовних пар може бути використана для їх приєднання.

Consed збори програм перегляду «зображує одну з пари як кольорові лінії, що охоплюють сусідні, зображуючи останні горизонтально орієнтованими блоками. Цей дисплей візуально розділяє «послідовні» пари (ті, які передбачуваного розміру і орієнтації) шляхом побудови їх вище або нижче наборів генів зчитування, які пов'язані один з одним перекриванням їх послідовностей, що дозволяє виявити неправильну збірку (Рисунок1). Одна з переваг цього методу, є те, що він дозволяє вести інтерактивну фільтрацію даних, що відображаються (наборів генів зчитування, аналогічних послідовностей і т.д.). Незважаючи на це у фільтрації є одне обмеження, це те, що зображення може швидко псується, тому що число пар збільшується.

Наприклад, в Consed іноді бажано відключати зображення всіх узгоджених пар внутрішнього набору генів зчитування, так як їх кількість перевантажує зображення.

У доповненні до однієї з пар послідовності схожість може бути використано для виявлення всіляких генів зчитування і для перевірки виходу «вікно порівняння наборів генів зчитування». Аналогічні функції існують і в інших обробних програмах забезпечення, наприклад Gap4 приєднаний редактор наборів генів зчитування. Ці надані послідовності доповнюють огляд показують, як Gap4 використовує точкові графіки, що зображують кожну з осей, які вказують на позиції уздовж довжини наборів генів зчитування, і розділяє точки в місцях сумісності вище меж подібної послідовності.

Користувач може інтерактивно дослідити послідовність взаємозв'язку між різними наборами генів зчитування і переглядати результати пошукових операцій, таких як «знайти, повтор». Збори зображень Consed може відображати вихід утиліта порівняння званого «пара хрестів», використовуючи для цього зв'язування областей з подібною послідовністю між користувачем наборів генів зчитування

Різні кольори означають такі функції як напрям повторюються з інтернованих повторів. Однією з переваг перегляду подібності послідовностей в збірці зображення є можливість інтегрування зчитування ділянок, які можуть виявляти несподівано високі регіони дії і часто вказують на аналогічні послідовності, які були помилково зруйновані і зібрані в одну. Користувач може вибрати для вивчення послідовності схожості на основному рівні, і знову натискаючи, вивчає, те, що лежить в основі повідомлення. Існують також автономні інструменти функцій, пов'язані наприклад до Miropeats, широко використовувані для ранніх геномних проектів секвенування.

UNIXC - оболонки, які генерують статистичні картинки з використанням дугових зображень для позначення різних повторів.

Наступне покоління засобів зображення послідовностей

Індивідуальне секвенування геномів стало можливим і поклало початок геномного проекту 1,000. Ці дані дають безпрецедентну можливість для характеристики видів людських генотипів, а також дають нове покоління обчислювальних методів з появою результату обчислення.

У деяких випадках візуальна інспекція може сприяти оцінки та інтерпретації зчитування узгоджених методів та генетичної мінливості виявлення виведення даних.

Асемблювання зображує кошти володіють необхідними функціями, але побудованими за даними Сенгер і спочатку істотно краще прочитуючим об'єм технологій NGS. Деякі з цих коштів в даний час модернізовані, для вирішення більш складних наборів даних існує Consed і оновлена ​​Gap5, також розроблена нова хвиля інструментів з урахуванням цілей.

Наприклад, Eagle View, Map View, IGV (таблиця 1). На відміну від програмного забезпечення ці кошти, в першу чергу дані програм перегляду не надають функції редагування. Через їх акценту на перегляді багато програм забезпечують більш гнучкі можливості, а масштабування дозволяє користувачеві вільно зменшувати зображення. Наявна у продажу КМО геноміка Workbench є особливо зручною для користувача і включає в себе власне зчитування узгоджених програм, які можуть бути запущені через GUL.

У контексті рессеквенціі одна з пар дає цінну інформацію про структурні зміни, таких як вставка, видалення та інверсії. Як вже говорилося, в попередньому розділі одна з пар може, вказувати на неправильну збірку і користувачі можуть виконувати виявлення змін за проектом ассемблирования і інформувати про ці проблеми.

LookSeq і Gap 5 використовують вертикальну вісь обертання і вказують розмір вставки. Це поділяє одну з пар несумісності на окремі ділянки і візуально відокремлює великі розміри вставок, які припускають включення результатів. При аналізі структурних змін, важливо розглядати анотацію генів, наприклад, чи приводять зміни до синонімів або нонсенсом в амінокислотах.

З цієї причини деякі з візуалізуючих засобів і деякі закінчені програми забезпечення допомагають поясненням процесів на дисплеї.

Consed служить прикладом на дисплеї узгодженої трансляції амінокислот у всіх шести зчитування фреймах і дозволяє користувачеві анотувати генотипи, повтори і визначати гени.

Проблеми NGS і великий обсяг даних, створюють обчислювальні та представницькі проблеми. Нові формати файлів на приклад вирівнювання послідовності (карти SAM) формати, прийняті в 1,000 геномного проекту, а також компактні формати вирівнювання. CALF забезпечує компактне зберігання даних зчитування вирівнювань.

Прединдексанція, наприклад файлів ВАМ (супутник бінарне подання SAM) - все ширше використовується для досягнення швидкого пошуку, випадково узгоджених даних і зменшує вимоги до пам'яті інтерактивних вирівнювань. Наприклад, більшість зчитувань вирівнювання зображень представляє зчитування всіх доступних файлів з ​​використанням сортування або колоризації в якості керівництва користувача.

Тим не менш, це подання руйнується, коли відбувається сотні і тисячі зчитувань карт в одному місці.

Користувачі потребують сумарних методах, які зчитують бази і особливість вирівнювання, для того, щоб отримати загальний огляд, а також інтерактивний доступ до основних востребуемой даними.

Крім того, сучасне збори NGS програм на основі графіків де Брейна виробляє зв'язування наборів генів зчитування інформації, яке може стати комплексом. Асемблювання графічних зображень в тому і числі інтерактивних зображень з'являється для тог, щоб забезпечити більш високий рівень візуалізації зібраної структури.

Частина можливостей ассемблирования обробних програм забезпечення дозволяє миттєву інтеграцію і аналіз операцій з візуалізацією пошуку. Послідовність пошуку внаслідок динамічної візуалізації вирівнювання представляє єдиний подібний приклад. Крім того, ефективність роботи користувача може бути значно поліпшена шляхом надання рекомендацій, де шукати. Наприклад, користувач може перейти до наступної області «низької якості узгодженості», використовуючи навігаційне меню Consed замість того, щоб вручну визначати розташування. Досягнення такого роду інтеграції між візуальним і комп'ютерним аналізом буде мати важливе значення в зростаючої потреби аналізу даних.

Перегляд генів

Кінцевим продуктом секвенування генома, збору та обробки циклів є високосмежние послідовності, в якому більшість наборів генів мають довжини, що на порядок більше, ніж при зчитуванні. Як може дослідник управляти цією послідовністю і виявляти цікавлять в ній області.

Послідовність містить довідкову систему координат і природну платформу, на якій збираються наукові анотації і геном відображається набором даних з різних джерел.

Геноми браузерів були спочатку розроблені для відображення даних на ранніх зборах проектів, таких як Елеганс геном і пізніше інших модельних організмах (наприклад, в Університеті Каліфорнійському Санта Круз, UCSC геномний браузер, Асамблеї геномного браузера і NCBI карт зображень). Ці браузери мають багато функцій і їх основні відмінності були розглянуті в іншому місці. Сьогодні браузери стали стандартними інструментами для вивчення геномів, полегшують аналіз геномної інформації і забезпечують загальну платформу для досліджень, забезпечують збереження і публікацію наукових відкриттів (таблиця 2).

Геномний браузер в двох словах

Загалом, геномні браузери відображають дані і біологічні анотації з багатьох джерел, в їх геномном контексті, в рамках графічного інтерфейсу. Ці інструменти підтримують різні типи даних, включаючи експресію генів, варіації генотипів, міжвидові порівняння та багато іншого.

Анотації функціонально важливих областей, таких як розташування генів, в регіонах з транскрипционной активністю і регуляторних елементів, або випливають з експериментальних результатів (наприклад, інтерпретація послідовностей) Java Script або моделювання (наприклад, прогнозування генної моделі). І дані і анотації організовані з «треків», які можуть бути заздалегідь завантажені в геном браузера або завантажені на вимогу.

Дослідники часто хочуть вивчати особливості регіонів, які їх цікавлять, а всі нинішні браузери геномів дозволяють користувачеві вибирати конкретні місця для показу геному.

Більшість інструментів забезпечують можливість для пошуку послідовностей і для конкретної геномної анотації, (такий як генні імена), які знаходяться в основі бази даних.

Багато геномні браузери також дозволяють здійснювати складні запити даних і вибирати інструменти для доступу до анотацій списку для конкретної області або цілого генома. Наприклад, Galaxy, послуга, спеціально призначена для взаємодії з геномом браузера і полегшення обробки даних і аналізу. Часткою гідності геномних браузерів, є те, що вони є змінними. Наприклад, користувач може прийняти рішення про резолюцію, на якій інформація відображається (наприклад, вікна з декількох сотень пар основ в порівнянні з десятками тисяч) і масштабування і паномірованіе за своїм бажанням. Дані методи можна вільно розташувати в певному порядку і організовувати, щоб полегшити їх зіставлення.

У більшості випадків, користувачі також можуть вибирати між країнами і налаштовувати кілька режимів відображення, щоб вивчити той же результат даних. Наприклад, незмінність важливих даних, таких як відображення, у вигляді карти або гістограми, які можуть бути завантажені як модель (зразок). Популярність браузера УСК геному випливає з його гнучкості у відображенні представлених користувачами даних і його швидкому часу відгуку. Тим не менш, відображення вимагає дій і порівняльної оцінки користувача. Наприклад, повинен інтерпретувати колоколізацію гистона Н3 ацетилювання (Н3ас) з Usf1 зв'язуванням транскрипційних факторів, як і біологічно значущих, так і експериментальних артефактів.

Нове покоління геномних браузерів

Нові та більш високі пропускні спроможності геномних технологій, у тому числі NGS, дозволили дослідникам створювати безпрецедентний обсяг даних.

Міжнародний консорціум - наприклад, енциклопедія ДНК елементів (кодування), програма 37, програма 38, Атлас ракових генів, 1000 Генна та постгенная колійна проектна карта, кожна буде створювати тисячі наборів геномних даних.

Навіть порівняно невелика група дослідників, тепер мають можливість отримати великі обсяги даних геному протягом короткого періоду часу. З'являється нове покоління геномних браузерів і відповідних баз даних здатне ефективно управляти і поширювати цей обсяг даних. Традиційні веб браузери використовують централізовану модель генома, згідно з якою дані та зв'язок знаходяться на стороні сервера. Інформаційні потоки йдуть від провайдера в геном серверного браузера, що забезпечує необхідне зображення і передає його кінцевому користувачеві.

Коли розмір даних зростає до критичної точки, істотними труднощами стають витрати сервера та підключення до інтернету і це в кінцевому рахунку порушує безперешкодний геномний перегляд.

Децентралізація даних, зв'язку або поєднання їх може полегшити таке навантаження на сервер. Наприклад, JBrowse використовує асинхронний Java Script і XML (AJAX) для розподілу роботи між сервером і клієнтом, і несе значно менші втрати сервера, а також замінює традиційні статистичні навантаження зображень з безперешкодним анімацію геномної навігації і виборів методів. Annoj 40 (анотація з Java Script ) надається аналогічної безперешкодної Web 2.0 навігацією, однак з боку клієнта вона виконує надання послуги «полотно» MTML елементів, які підтримують тільки деякі веб браузер. Деякі інші додатки використовують технології, на підтримку Google Maps API, які передають час відгуку на сторону сервера і створюють ефект руйнації рівномірності коли навігація локалізована усередині геному.

Інші підходи використання UCSC геномного браузера погіршують удосконалення звичних функціональних підходів по відношенню до країн, що Big Bed і Big Wig з їх можливостями розташовувати дуже великий обсяг даних (сотні мегабайтів до гігабайтів інформації).

Такі великі обсяги даних форматуються і зберігаються локально на комп'ютері клієнта. Замість того, щоб зберігати весь набір даних в базі браузера, браузер отримує лише приблизну частина даних необхідну для розташування хромосом в гені. Крім підвищення ефективності локально збережених даних також є явне перевагу, пов'язану з мірою необхідності для захисту особистих даних, таких як окремі людські сфери діяльності.

Токійський університет геному браузера UTGB, спеціально призначений для перегляду локально збережених даних індивідуальним чином.

Є також кілька автономних інструментів зокрема два Java - основні пакети, Aff ymetrix Комплексний геномний браузер (IGB, повідомляє ig-bee) і Інтерактивне геномної зображення (IGV), розроблене в інституті Брода.

До доповнення до експериментальних даними, пов'язаних з геномної послідовністю, інші типи даних, такі як клінічна інформація, пов'язана із зразками, часто має вирішальне значення в інтерпретації даних геномів. Деякі недавно розроблені геномні браузери, призначені для забезпечення платформи для інтеграції великих обсягів даних геномів, особливо ракової геномної інформації. Вони включені в YCSC, Раковий геномний браузер, IGV і молекулярний аналіз раку, розроблений в Порталі амер. Національного Інституту раку. Основним нововведенням цих нових інструментів є одночасне відображення даних генів і клінічної інформації.

Ці браузери відображають розташування цілого генома, зображуючи експериментальне вимірювання для окремих зразків і наборів зразків у вигляді гарячих карт.

Клінічні ознаки показуєт цілу геномну інформацію в окремій теплової карті.

Отже, з'являється можливість взаємодіяти з браузером, розташовувати у певному порядку, фільтрувати агрегати і відображення даних у відповідності з клінічними ознаками, анотувати біологічним шляхом або редагувати користувачем колекцію генів.

Статистичний аналіз може бути застосований до певних наборів даних і графіками в браузері.

УСК геномний браузер раку використовує зображення теплових карт, на яких х-осі координат і геномні осі у необхідні для стека великих геномів, де кожен рядок надає дані зразка. Цей дисплей дозволяє легко визначати закономірності всієї вибірки. Наприклад, користувач може точно визначити, де область хромосоми за місцем розташування PTEN, видаляючи їх періодично, за наявними в наявності зразкам пухлин головного мозку. Нижче теплові карти геному можна переглянути сумарно і ті дані, де очевидно є характерні зміни кількості видимих ​​копій.

Клінічні теплові карти дозволяють дослідникам візуально вивчити взаємозв'язок між геномним вимірюванням і окремими клінічними ознаками, які є в розпорядженні користувачів на основі їх рівня доступу до даних. Перебудова вертикальної (клінічної проби) необхідна як в клінічних так і в геномних теплових картах, і може бути виконана одночасної сортуванням на основі чисельно закодованих клінічних функцій або сукупності ознак.

Наприклад, коли гліобластомние дані відсортовані на пухлини порівняння, то існує очевидна різниця між генами, що містять ці два типи зразка і «нормальними зразками», що відображають будь-яке велике порушення, що характеризується великою кількістю копій пухлин.

Обмеження фаз даних в основі координат взаємодія між двома місцями розташування геному. Крім того, глобластние тенденції в геномах краще оцінювати в контексті можливостей, яких немає на геномної карті.

Одним з останніх прикладів є ускати існуючі Геномні браузер раку, в якому геномні дані відображаються в контексті біологічного спрямування.

Організовуються розміщення даних в наборі генів у відповідності з індивідуальними напрямками на відміну від місця розташування хромосом, користувачі можуть отримувати більш надійну та біологічно значиму інформацію про геномних даних через гени, які можуть діяти узгоджено.

Андерс і його колеги забезпечили інший підхід, у якому геномні дані організовані по кривій Гільберта, що забезпечує глобальний огляд. У майбутньому, існує величезний потенціал в освоєнні нових способів кращого орієнтування геномних пейзажів.

Проблеми

Деякі ключові проблеми в області генного аналізу даних, з'явилися в останні роки, в тому числі і питання: обсяги даних, тип даних і представлення даних. Кілька нових геномних браузерів, які були, згадані вище, вирішують деякі з цих питань, однак узгодженості поки недостигнуто. Крім того, важливо те, що нові геномні браузери побудовані за допомогою успішних інструментів, включаючи легкий доступ крос платформних даних та відображення настройки і можливості виконувати миттєві обчислення і візуалізацію.

Геномні Браузери починають взаємодіяти з конфіденційною інформацією, тому що суспільство усвідомлює проблеми захисту даних. Особиста інформація, закодована в геномном ДНК, клінічні параметри, а також інша інформація особистого характеру потребує ретельного захисту.

Геномним оглядачем можуть скористатися багато систем безпеки, розроблені для електронної інформації з метою забезпечення доступу тільки для авторизованих дослідників.

Крім того, ці засоби здатні максимізувати службові програми, забезпечуючи конфіденційність даних, представляючи в їх анонімній формі, наприклад, у вигляді сукупності або сумарно, не допускаючи при цьому отримання особистої інформації від таких агрегатів.

Порівняння геномів

Остання наявність великої кількості повністю секвенувати геномів їх асамблея стимулювала активні дослідження в області порівняльної геноміки. Це включає розробку алгоритмів і засобів для парного і множинного вирівнювання дуже довгих геномних проміжків і повних геномів. Серед цілей цієї роботи були виявлені такі функціональні елементи, 1) такі як Екзони або посилюють агенти 2) дослідження великомасштабних перебудов і еволюції індивідуальних геномів та їх посилань в ході ассемблирования і завершення. Візуалізація узгоджених даних є критично важливою для кожної з цих цілей, але є складним завданням через графічних труднощі виявлення взаємозв'язку цікавлять хромосом у різних геномах на багаторазово повторюваних шкалах. У цьому розділі ми розглянемо різні методи, які будуть розроблені для того, щоб допомогти дослідникам у напрямку послідовностей між двома і більше геномами.

Розрахунок геномного вирівнювання та сінтеніі

Існують різні методи для парних і множинних генних вирівнювань, наприклад, BLASTZ 50, MULTIZ 51, Shuffle - LAGAN 52 «Меркатор» і MAID 53, Mauve і кілька симетричних вирівнювань. Всі ці методи об'єднані загальним принципом знаходженням найбільш близьких геномних інтервалів (якорів), розширення цих регіонів, ланцюжків угруповань, які межують між собою і аналіз реконструкцій.

Після вирівнювання наступний крок полягає в тому, щоб знайти збережені сигнали, які можуть вказувати на потенційно функціональні області. Методи розрахунку коротких сигналів збережені в області простого вікна схожого на PipMaker і Vista, філогенетично приховують моделі Маркова Phastcons 57,58 та інші статистичні моделі Gamby 59. Розрахунок зберігаються сінтеній, означає збереження хромосом, які розташовані в декількох генах, засновані на аналізі ДНК або на вирівнюванні або двунаправленном порівнянні ортологічних генів з інтервалом в 2 гени. Еволюційне значення сінтеніі випливає з припущення, що точний порядок генів у хромосомі йде від загального предка.

Візуалізація вирівнювання необхідна для розробки способів вирішення різних аналітичних завдань. Графічне представлення про сінтеніі на рівні всього генома має вирішальне значення для вивчення еволюції геному. Крім того, важливим є можливість «розвернути» для глобального уявлення про сінтеніі і для вивчення конкретних областей збережених генів у контексті анотації. У добавок, збори геномів і анотація їх моделі може бути представлена ​​шляхом порівняння становища невідомого гена і його гомологічної послідовності з одного організму в інший, який має готові або добре анотовані послідовності генома.

Нижче ми опишемо методи візуалізації, які використовуються для відображення сінтеніі на мікро і макро рівнях (таб.3).

Візуалізація геномного вирівнювання

Широкі спектри стратегії були вивчені для графічного сінтеніі на рівні цілого генома. Двовимірні точкові графіки, які традиційно використовуються при аналізі локального вирівнювання, побачили сучасне відродження в якості потужного способу візуалізації більш доступного геномного вирівнювання (DaGChainer, Vista - Dot MUMmer 62, Genome Matcher та інші).

Геноми цих двох організмів представлені по осях х і у графіка, із зазначенням ліній сітки хромосомних кордонів. Точки на графіку вказують на деяку ступінь вирівнювання, утворюючи 45 градусні лінії на окремому місці.

Геном реконструкції і дублювання відразу пізнає їх як, відповідно поза діагоналі і ідентифікує лінії як горизонтально так і вертикально складені. Dag - перше загальнодоступне засіб для створення графіків, розраховує сінтеніі на основі мета-вирівнюванні генів у родинних BLAST поєднаннях між двома організмами.

Vista - діаграми запропонували точковий графічний режим для перегляду сінтеніі на основі геномного ДНК вирівнювання (доп.ріс.1). Ці кошти мають інтерактивні карти типу Google інтерфейсу, що дозволяють користувачам масштабувати і паноміровать в межах областей, а також на посилання з відповідного сегмента для перегляду в Vista або в геномном JGI браузері.

Точкові графіки є корисними не тільки при аналізі сінтеніі між готовими геномами, але і геномної обробки. Наприклад, OSLAY засіб, який автоматизує все більш поширені методи використання точкових графіків і призводить колекцію наборів генів з незавершеного ассемблирования з еталонною складанням, і тим самим карту цілого генома.

Глобальне збереження може бути візуалізовано і представлено посиланням геному з використанням таблеткової форми ідеограм хромосом і стрічкових для позначення областей наведених відповідно, з яким або геном. Групи мають кольорове маркування для позначення хромосом у відповідності з геном, з яким вони порівнюються.

Ідеограма представлених геномів вирівнювання є найкращим вибором для індивідуального генерування даних у публікаціях нової послідовності геномів.

Три варіанти є доступними для автоматичної генерації варіантів цієї візуалізації для певних користувачів геномної інформації: Cinteny, Apollo, «Градієнт зображення» Сибілла використовує інноваційні візуалізації, у яких гени відображаються за кольором по геномним посиланнях, ці кольори використовуються для позначення гомологічних місць в наборі уніфікованих геномів .

VISTA сінтеніі зображення (доп.ріс.2) використовують основну ідеограму, яка описує вирівнювання родинних геному як напрямного кошти відбору хромосом в організмі, в посиланнях розглянуто більш детально. У порівнянні з точковими графіками подання сінтеніі за допомогою діаграми сприяє втраті інформації про місцезнаходження уніфікованих областей для порівняння геномів. Тим не менше, використання кольорів в цих діаграмах сприяє можливості з легкістю уявляти собі, геном і порівнювати його з іншими.

Крім того, кольорові сегменти в інформаційно-довідковому геномі можуть бути пов'язані з якимись конкретними положеннями хромосом і лінії малюються більш дрібні в порівнянні з хромосомними символами в організмах. Цей підхід використовується в «Apollo», а також у PhiGs веб сайті, який дозволяє користувачам створювати сінтеніі карт з 45 послідовностей грибів і багатоклітинних.

Альтернативний естетичний підхід до геномним зображень представив Circos. Засоби, що вдають із себе Circos, дві або більше геномні дуги на одному колі. Лінії, які перетинають центр кола, пов'язують і вирівнюють відповідні області.

У цьому циркулярі систематизовано і зменшені візуальні плутанини, які випливають з еквівалентних лінійних уявлень, в яких павутини з'єднують віддалені області в безлічі геномів.

Цей інструмент також підтримує анімацію вирівнювання зв'язків між окремими геномами, а хромосоми можуть бути переглянуті в послідовності і надалі плутанини скорочуються.

Циркуляційний геномної зображення також є в MEDEA і в Miz Bce.

Точкові графіки, ідеограми і циркулярні зображення представляють собою оперативне мистецтво (стратегію) для візуального зображення і забезпечують збереження геномних шкал. Інструменти для реалізації цих зображень можуть бути використані для виявлення областей сінтеніі, дублювання і переміщення між геномами. Після виявлення таких областей дослідникам необхідні кошти, щоб переглянути їх на більш високому рівні дозволу для візуальної асоціації з анотаціями даних.

Візуалізація геномної захисту

Найбільш простим способом візуально зв'язуватися з анотацією збережених даних буде подання вирівнювання геномів і порівняння їх як «треків» в УСК браузері і браузері VISTA (рис.3).

В обох випадках попарне або множинне вирівнювання представлено у вигляді двомірного графіка, в якому по осі х вказується положення уздовж представленого геному, а по осі у представлено і збережено множинне вирівнювання цього геному.

До того ж, UCSC браузер має сліди «ланцюжка вирівнювання» показані як різні відтінки сірого.

У разі слідів VISTA, такі функції як збереження екзонів, UTRS і некодуючі області позначені кольором, який знаходився під кривими.

VISTA треки можуть бути експортовані для перегляду в рамках відповідних організмів посилаючись на інші геномні браузери, такі як JGI геномний браузер і УСК геномний браузер.

Вирівнювання треків надає цінні засоби для швидкої ідентифікації та збереження при перегляді окремих геномів. Тим не менш, це збереження зображення не дозволяє дослідникам використовувати функції в двох напрямах: переглядати і порівнювати вирівнювання одночасно.

З цієї причини багато інструменти були розроблені з можливою візуалізацією локальних сінтеній (таб.3). Як правило, ці інструменти використовують загальну стратегію, яка зображує множинну ланцюжок і порівняння місця розташування одного або більше геному малюючи при цьому лінії між ними, щоб вказати сінтеніі (зображують пов'язані сліди).

Функції треків з зазначеної анотацією геномної моделі і визначив послідовності тега, які можуть бути накладені вище або нижче відповідних регіонів, аналогічно тому, який використовується геномним браузером.

Це уявлення дозволяє візуально переглядати вирівнювання, зберігаючи при цьому в контексті геномної анотації, яка описує зміст досліджених областей, посилання підключень у збережених областях можуть бути зроблені на основі геномних вирівнювань ортологічних генів, кластерних білків або навіть модельної структури GMOD Загальні Модельні організми Даного проекту. У тому числі популярні геномні браузери GBrowse є, мабуть, найбільш широко використовуваної основою для програмного забезпечення для підтримки геномного аналізу та зберігання.

Три сінтеніі веб оглядачів були розроблені в рамках GMOD: Syn Browse і GBrowse Syn, а розширення сімейства інструментів з GBrowse дозволяє користувачам переключатись між трьома режимами відображення зі збереженням зв'язку між регіонами.

У режимі «сінтеніі блоків», області пов'язані у відповідності з заданими користувачем визначеннями сінтеніі (певна кількість колінеарних генів протягом певного мінімального відстані).

У режимі «кодування генів» і «кодування екзонів», білкове вирівнювання відображається у вигляді лінійної угруповання генів і екзонів, і відповідно через посилання порівнюються сегменти. Характерною особливістю вирівнювання є індикація за кольором кожній лінії.

Різні уявлення, які використовують для візуалізації сінтеніі на шкалах, як ланцюгів вирівнювання геному з збереженням ітронно-екзоном структури в області геномної послідовності.

Основною проблемою у майбутньому розвитку цих засобів полягає в тому, щоб надати кошти для дослідника забезпечення можливості переміщення через ці рівні безпрепятствій.

На щастя, все більше ускладнення веб-технологій забезпечує ще більшу інтерактивність і можливість підключення візуальних елементів до інформаційних ресурсів в інтернеті.

VS V, використовує ці технології, надаючи новий інтерфейс для об'єднання шкал в дисплеї сінтеніі. VS V зображує у три крос навігаційні панелі надає різні шкали вирівнювання.

Combo і G enome партнер надають рішення у візуалізації сінтеніі шляхом підключення інтерактивних точок графіка з переглядами «пов'язаних треків» збережених локально.

MizBee, що вийшов зовсім недавно надає інтерактивні перегляди, пліч-о-пліч, даних по всьому спектру шкал, надаючи підтримку вивчення всіх типів зв'язків.

Більшість коштів описаних вище слідують моделі вирівнювання одного або більше геномів, порівняння одного геному проти базового.

Цієї моделі характерне візуальне обмеження, яке полягає в тому, що зв'язки між організмами, які порівнюються, не можуть бути вивчені.

Одним із шляхів вирішення цього обмеження, прийняті в обох засобах порівняння Artemis і CMAP, дають уявлення користувачеві про стеку геному, так, що довільний набір порівняння споріднених геномів можна уявити (хоча даний геном ще можна порівняти з більш ніж двома іншими).

Ще одним недоліком «геномної посилання» моделлю для відображення сінтеніі, є те, що вісь х упродовж всього вирівнювання, як правило, визначається положенням вздовж посилання геному, що робить можливим затемнення цікавих особливостей порівняння послідовностей. Два інструменти Phylo - Vista і SynPlot, здійснюють візуалізацію, збережену в положеннях які зображені по відношенню до довжини загального вирівнювання.

Ще однією проблемою у візуалізації сінтеніі є графічне представлення вставки і видалення, які є критичними для відстеження еволюції геному в хромосомах, споріднених генів і структурних шкал генів.

Хоча багато алгоритми вирівнювання здатні виявляти видалення, більшість зображень сінтеніі не пропонують засоби для їх візуальної індикації, відображаючи лише збережені відповідності між областямі.Насколько нам відомо, тільки GBrowse syn зображення дозволяє візуалізувати видалення.

Коли «сітки лінії", включені в GBrowse syn, вилучення представлено сіткою ліній з'єднують вставки областей на одному геномі єдиною точкою вилучення на інших.

Багато успішні засоби візуалізації особливо ретельно враховували вимоги для спеціалізованих аналізів своїх користувачів і малоймовірно, що універсальний інструмент для аналізу генів залишиться підходящим або бажаним.

Існує, однак, крайня необхідність поліпшити інтеграцію між засобами і полегшує перехід від одного аналізу до іншого. Стрімкий прогрес у галузі технології секвенування продовжують деформацію існуючого програмного забезпечення і створюють проблему прогнозування майбутніх потреб.

Парадигма більш зрілих інструментів, як з точки зору обчислювальних методів, так і візуальних уявлень це боротьба за відповідність інформаційним вимогам.

Пізніші кошти вирішують деякі з основних питань, але вони часто програють у багатофункціональності заради задоволення нагальних потреб, які складаються у швидкості та легкості розповсюдження.

Цілком ймовірно, що широко поширена інтеграція між коштами, буде коли-небудь реалізована, і тоді ми придбаємо більшу стабільність в технології генерації даних і форматів стандартних файлів.

Ми виявили декілька широко використовуваних засобів для керівництва дослідниками охочими здійснювати геномний аналіз сьогодні.

Однак, з огляду на швидкість, з якою, це відносно молода галузь розвивається, дуже ймовірно, що нові програмні кошти з'являться, а переглянутий формат файлів буде вже запропонований в найближчому майбутньому. Як наслідок цього динамічного характеру, інноваційний потенціал у цій області великий.

По-перше, для задоволення майбутніх потреб аналізу, необхідна їх візуалізація. Необхідна для успішної інтеграції різних форм даних, таких як клінічна інформація в сукупності з даними геному.

По-друге, ці цифри вимагають візуального представлення на шкалах рівномірного порівняння тисячі і навіть мільйони елементів.

Наприклад, заснований на треках екран використовує поточний геномний браузер, не зможуть забезпечити виведення на екран 1000генного проекту.

По-третє, досягнення в цій області вимагають безперешкодного напрямки по відповідним рівням резолюції, користуючись методом агрегування виявляти глобальні тенденції інтерактивних інтерфейсів для забезпечення доступу користувачам з більш низькими рівнями вимог.

І по - четверте, поліпшення інтеграції між автоматизованим розрахунком і візуалізацією необхідно досягти, щоб користувачі могли інтерактивно уточнювати і повторювати аналізи.

Такого роду інтеграція також дозволить більш широкому спільноті біологів виконати геномний аналіз, а не обмежуватися тільки розрахунками програмістів.


Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
100.4кб. | скачати


Схожі роботи:
Візуалізація отриманої інформації
Рекламний образ і його візуалізація в рекламному творчості
Експресія генів
Дія генів
Нокаут генів
Теорія генів бізнесу
Структура та функції генів
Основні типи взаємодій генів
Вплив гіпотермії на експресію генів
© Усі права захищені
написати до нас