Skip to content

biocad/chemnext-trainee-test-case

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Тестовое задание для стажера в группу вычислительной химии

В рамках этой стажировки вам предстоит работа над автоматизацией инструментов, рутинно использующихся вычислительными химиками. Основной язык разработки в группе – Python, поэтому в этом тестовом задании мы хотим узнать как вы умеете работать с документацией и пишете код. При выполнении задания не нужно писать промышленную программу с учетом всех граничных случаев, покрытием тестами и пр., достаточно рабочего примера и комментария о том, как его запустить. Из приведенных заданий достаточно выполнить только одно, на ваш выбор.

Не стесняйтесь задавать вопросы и уточнять требования:

Задание 1. Параметризация малой молекулы полем OpenFF

Молекулярная динамика – один из основных методов исследования комплексов малой молекулы с белком. В наших исследованиях довольно часто нужно запускать МД-вычисления для серии малых молекул, при этом подготовка входных файлов для Gromacs в ручную – достато трудоемкий процесс. Поэтому имеет смысл автоматизировать конвертацию лигандов из структурных файлов в входной формат Gromacs, чтобы упростить процедуру спорки системы и последующего запуска.

Задача

Написать набор функций в виде Python-скрипта или Jupyter-ноутбука для параметризации большого количества малых молекул полем OpenFF для использования в Gromacs.

Входные данные

  • SDF-файл с координатами лигандов. Координаты не должны измениться в процессе подготовки. Пример файла с малыми молекулами находится в папке openff_data

Выходные данные

В отдельной папке для каждого лиганда из SDF (желательно, чтобы имя папки соответствовало имени молекулы, если оно есть в файле):

  • Файл со структурой лиганда, в читаемом Gromacs формате (PDB или GRO)
  • Файл с топологией Gromacs (topol.top)

Для чтения SDF-файлов можно использовать библиотеку RDKit, для параметризации и записи файлов для Gromacs – openff-toolkit (showcase, конвертация в Gromacs).

Задание 2. Подготовка лигандов для докинга в Autodock Vina

Молекулярный докинг – «рабочая лошадка» медхимика, эта процедура выполняется довольно часто на довольно большом объеме низкомолекулярных соединений. Одна из популярных программ для докинга – Autodock Vina, она умеет работать только с соединениями в формате PDBQT, с которым не удобно работать во всех остальных случаях. Поэтому для автоматизации докинга нужен инструмент для конвертации более распространенных структурных файлов (SMI и SDF) в формат PDBQT.

Задача

Написать набор функций в виде Python-скрипта или Jupyter-ноутбука для конвертации большого количества малых молекул в формат PDBQT из SDF и SMILES. SDF может содержать молекулы в 2D и без атомов водорода.

Входные данные

Примеры входных данных находятся в папке vina_data

Выходные данные

  • Набор PDBQT-файлов, по одному на каждый лиганд, имя файла берется из его названия в соответствующем исходном файле.

Для чтения SDF-файлов можно использовать библиотеку RDKit, для конвертации файлов лучше всего использовать библиотеку Meeko. Дополнительное задание – сделать алифатические циклы с числом атомов больше 5 «гибкими» (нужные параметры для подготовки лиганда можно подсмотреть здесь).

About

Test case for 2024 Winter Internship

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published