Все о Цифровых системах - новости, статьи, обзоры, аналитика. Более 1000 компаний, товаров и услуг в каталоге.
Добавить компанию

Новый формат файла данных помогает исследователям сократить время анализа ДНК

Рубрики: «Медицина», «Наука»

Новый формат файла данных помогает исследователям сократить время анализа ДНК

Отчет опубликованный в «Natural biotechnology» показал, что новый формат SLOW5 (МЕДЛЕННЫЙ5) может обрабатывать сложное секвенирование нанопор ДНК «более чем в 30 раз быстрее», чем предыдущий формат файлов, который, по иронии судьбы, назывался FAST5 (БЫСТРЫЙ5).

Нанопоровое секвенирование используется для выявления ряда заболеваний и помогает специалистам в области здравоохранения детально анализировать образцы ДНК, чтобы подобрать индивидуальное лечение для больных раком.

Данные, полученные в результате этого процесса обычно сохранялись в файлах формата FAST5, размер которых составлял около 1,3 терабайта, что эквивалентно примерно 650 часам видео высокой четкости. По словам исследователей, из-за такого большого размера файла FAST5 компьютерам требовалось две недели для его обработки.

Обработка данных генома человека с использованием нового формата SLOW5 сокращается до половины дня. В отличие от FAST5, формат SLOW5 допускает параллельные вычисления, при которых несколько процессоров могут одновременно выполнять несколько небольших анализов, полученных из более крупного, сложного и полного набор данных.

Ведущий автор и инженер по системам геномных вычислений из Института Гарвана Хасинду Гамаараччи заявил: «Вы можете думать об этом, как о попытке 10 человек вырыть действительно большую яму, но у них на всех есть только одна лопата, которую они должны делить между собой. Так было с FAST5, но со SLOW5 у каждого есть собственная лопата, и все люди могут копать одновременно и выполнять работу намного быстрее».

Формат FAST5 медленный, потому что к данным нельзя обращаться параллельно. Он основан на формате иерархических данных, который был разработан в 1990-х годах для работы на машинах, которые, в отличие современных машин с несколькими процессорами, имели всего один процессор. 

«Иерархический формат данных также является общим, в то время как SLOW5 это специально созданный формат данных. Таким образом, с точки зрения аналогии с копанием ямы, это похоже на то, что мы также предоставляем специальную лопату для данного типа почвы. А поскольку новый SLOW5 может быть доступен параллельно нескольким процессорам одновременно, то время обработки сократилось в 30 раз» - добавил Гамаараччи.

Источник: