Классификация опухолевых и нормальных образцов тканей молочной железы на основе экспрессии ограниченного набора генов с использованием методов машинного обучения

Шакирьянова Фарида, 10 класс 

Направляющая организация:

МБОУ СОШ № 19, г. Набережные Челны

Научный руководитель:

учитель высшей

квалификационной категории

МБОУ №СОШ №19»

Азовцева Альфия Мирзаяновна

Казань, 2026

Оглавление

ВВЕДЕНИЕ 3

МАТЕРИАЛ 4

Источник данных 4

Выбор генов 4

Характеристика выборки 5

МЕТОДЫ ИССЛЕДОВАНИЯ 7

Предобработка данных 7

Разделение выборки 8

Выбор модели 8

РЕЗУЛЬТАТЫ 10

Качество классификации 10

Матрица ошибок 11

Интерпретация вклада генов 11

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ 13

ЗАКЛЮЧЕНИЕ 15

ВЫВОДЫ 16

 

ВВЕДЕНИЕ 

Онкологические заболевания остаются одной из ведущих причин смертности во всём мире. По оценкам Всемирной организации здравоохранения (ВОЗ), в 2022 году рак молочной железы был диагностирован у 2,3 миллиона женщин и стал причиной 670 000 случаев смерти во всём. Несмотря на значительный прогресс в диагностике и лечении, раннее выявление опухолевых изменений и точная молекулярная классификация опухолей остаются актуальными задачами современной медицины.

Развитие молекулярной биологии и высокопроизводительных технологий секвенирования привело к накоплению огромных объёмов геномных данных. Анализ экспрессии генов позволяет выявлять характерные молекулярные тенденции опухолей, отражающие изменения в регуляции клеточного цикла, репарации ДНК, апоптоза и других ключевых процессов здоровой клетки.

В последние годы методы машинного обучения активно внедряются в биоинформатику и онкологию. Они используются для классификации опухолей, прогнозирования ответа на терапию и поиска новых биомаркеров. Однако многие современные модели опираются на тысячи признаков, что затрудняет объяснение полученных результатов.

В связи с этим особый интерес представляет использование ограниченного, биологически обоснованного набора генов, позволяющего сохранить баланс между точностью классификации и интерпретируемостью модели. Такой подход особенно важен в исследовательских проектах, направленных на понимание механизмов опухолевого процесса, а не только на достижение высокой точности предсказаний.

Целью данной работы является исследование возможности классификации опухолевых и нормальных образцов рака молочной железы на основе экспрессии небольшого набора генов с использованием логистической регрессии и данных открытой базы TCGA.

МАТЕРИАЛ

Источник данных

В работе использованы данные из международного проекта The Cancer Genome Atlas (TCGA) — одной из крупнейших открытых баз молекулярных данных, включающей геномные, транскриптомные и клинические характеристики различных типов рака.

Для исследования был выбран датасет TCGA Breast Cancer (BRCA), содержащий RNA-seq данные экспрессии генов опухолевых и нормальных образцов тканей молочной железы. Данные были предварительно нормализованы для дальнейшей работы с большим материалом в Exel Word.

Выбор генов

Для анализа был сформирован набор из семи генов, выбор которых основан на их известной роли в онкологических процессах:

MKI67 (marker of proliferation, Ki-67) — ген, который кодирует белок Ki-67 — маркер пролиферативной активности клеток

TP53 — ген, который кодирует белок p53 — транскрипционный фактор, регулирующий клеточный цикл. Расположен на коротком плече 17-й хромосомы. Ген — антионкоген, то есть препятствует возникновению злокачественных новообразований. Белок p53 активируется при повреждениях ДНК, а также при стимулах, которые могут привести к подобным повреждениям, или являются сигналом о неблагоприятном состоянии клетки (стрессовом состоянии). Результатом активации p53 является остановка клеточного цикла и репликации ДНК; при сильном стрессовом сигнале — запуск апоптоза. Функция белка p53 — удаление из реплицирующихся клеток тех клеток, которые являются потенциально онкогенными

BRCA1 (BReast CAncer gene) и BRCA2 — гены, которые в норме помогают защитить клетки от злокачественного перерождения, но при некоторых аномалиях строения, наоборот, провоцируют развитие опухоли. 

(BRCA1 — на 17-й хромосоме, BRCA2 — на 13-й.) Основная функция белков, кодируемых BRCA1 и BRCA2, — поддерживать целостность ДНК. Они участвуют в процессах восстановления повреждённых участков генетического материала. Ген BRCA1\ BRCA2 кодируют белки, которые регулирует рост клеток, препятствует их неконтролируемому делению, а также устраняет ошибки при передаче ДНК.

Гены ABCB1 (MDR1) и ABCG2 (BCRP1) играют роль в онкологии в развитии множественной лекарственной устойчивости (МЛУ) к противоопухолевым препаратам. Эти гены кодируют белки-транспортеры, которые выводят лекарственные средства из клетки, снижая их внутриклеточную концентрацию. ABCB1 Кодирует белок P-гликопротеин (P-gp), который выкачивает из клеток лекарственные препараты. 

NQO1 — ген, связанный с антиоксидантной защитой клетки Ген NQO1 кодирует фермент NAD(P)H: хинон оксидоредуктазу 1. Расположен на хромосоме 16. 

Анализ ограниченного набора биологически значимых генов позволил сохранить баланс между качеством классификации и интерпретируемостью модели.

Характеристика выборки

Общая выборка включала 1207 образцов, каждый из которых был размечен в соответствии с типом ткани:

1 — опухолевая ткань

0 — нормальная ткань.

06 — метастатическая опухоль (метастаз) 

02 — рецидив опухоли

Последние два значения убирались из таблицы для чистоты исследовательской работы.

 

МЕТОДЫ ИССЛЕДОВАНИЯ

Предобработка данных

Исходные данные были представлены в виде таблицы, где строки соответствовали отдельным образцам, а столбцы — уровням экспрессии выбранных генов. Идентификаторы образцов были исключены из анализа, так как они не несут количественной информации.

Матрица признаков включала экспрессию семи генов, целевая переменная (label) отражала класс образца (опухоль / норма).

Разделение выборки

Для объективной оценки качества классификационной модели исходная выборка была разделена на обучающую и тестовую подвыборки. Разделение проводилось в соотношении 80% обучающих данных и 20% тестовых данных, что является распространённой практикой в задачах машинного обучения и позволяет достичь баланса между объёмом данных для обучения модели и достаточным количеством независимых данных для её проверки.

Обучающая выборка использовалась для подбора параметров модели и обучения алгоритма различать опухолевые и нормальные образцы на основе экспрессии выбранных генов. Тестовая выборка, не участвовавшая в обучении, применялась для оценки обобщающей способности модели, то есть её способности корректно классифицировать ранее невидимые данные.

Разделение выборки осуществлялось случайным образом с использованием фиксированного значения параметра random_state, что обеспечивает воспроизводимость результатов и позволяет повторить эксперимент при необходимости. 

Выбор модели

В качестве классификационного алгоритма в данной работе была выбрана логистическая регрессия.  

Выбор логистической регрессии обусловлен несколькими причинами. Во-первых, данный метод является интерпретируемым, так как коэффициенты модели напрямую отражают вклад каждого признака (гена) в вероятность отнесения образца к опухолевому или нормальному классу. 

Во-вторых, логистическая регрессия хорошо подходит для задач с небольшим числом признаков, что соответствует выбранному подходу с ограниченным набором генов. В отличие от более сложных моделей (например, нейронных сетей), логистическая регрессия менее склонна к переобучению и позволяет получить устойчивые результаты даже при относительно небольшом числе признаков.

В-третьих, логистическая регрессия широко используется в клинических и эпидемиологических исследованиях, что делает её результаты легко сопоставимыми с ранее опубликованными работами. Использование данного метода позволяет рассматривать полученную модель как исследовательский инструмент для анализа различий между опухолевыми и нормальными тканями.

 

РЕЗУЛЬТАТЫ

Качество классификации

Для оценки эффективности построенной модели логистической регрессии использовались показатели точности классификации (Accuracy) и площадь под ROC-кривой (ROC-AUC), рассчитанные на независимой тестовой выборке.

Полученная модель продемонстрировала высокую точность классификации: значение Accuracy составило 0,95, что означает правильную классификацию приблизительно 95% опухолевых и нормальных образцов, не использованных при обучении модели. Данный результат указывает на способность модели корректно различать молекулярные профили опухолевой и нормальной ткани на основе экспрессии выбранных генов.

Дополнительно была рассчитана метрика ROC-AUC, значение которой составило 0,987. Высокое значение данного показателя свидетельствует о практически идеальной способности модели различать два класса при различных порогах принятия решения и подтверждает устойчивость полученных результатов.

 Модель логистической регрессии обеспечивает надёжную и стабильную классификацию опухолевых и нормальных образцов рака молочной железы, что подтверждает информативность выбранного набора генов и корректность применённого метода.

Матрица ошибок

Для более детального анализа качества классификации была рассчитана матрица ошибок, позволяющая оценить распределение правильных и ошибочных предсказаний модели.

Полученная матрица ошибок показала, что из общего числа тестовых образцов:

20 нормальных образцов были корректно классифицированы как нормальные;

4 нормальных образца были ошибочно отнесены к опухолевым;

7 опухолевых образцов были ошибочно классифицированы как нормальные;

211 опухолевых образцов были корректно отнесены к опухолевому классу.

Низкое число ложных отрицательных результатов (7 случаев) свидетельствует о высокой чувствительности модели к опухолевым образцам, что является важным пунктом при анализе данных.

Интерпретация вклада генов

Анализ коэффициентов логистической регрессии позволил оценить вклад каждого гена в процесс классификации опухолевых и нормальных образцов. Знак коэффициента отражает направление влияния гена, а его абсолютное значение —  степень этого влияния.

Наибольший положительный вклад в отнесение образца к опухолевому классу продемонстрировал ген MKI67, что объясняется его ролью маркера клеточной пролиферации. Значимый положительный вклад также наблюдался для генов TP53 и BRCA2, участвующих в регуляции клеточного цикла и репарации ДНК, нарушения которых характерны для опухолевых тканей.

В то же время гены ABCB1 и BRCA1 имели отрицательные коэффициенты, что указывает на их ассоциацию с нормальной тканью и возможную защитную роль. Ген NQO1 продемонстрировал умеренный вклад, отражая его вспомогательную роль в клеточных защитных механизмах.

 

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ 

В данном исследовании была изучена возможность классификации опухолевых и нормальных образцов тканей молочной железы на основе экспрессии ограниченного набора генов с использованием методов машинного обучения. Полученные результаты демонстрируют, что даже небольшой, набор признаков может содержать достаточную информацию для надёжного различения двух классов тканей.

Высокие значения показателей качества классификации (Accuracy ≈ 0,95 и ROC-AUC ≈ 0,987) свидетельствуют о выраженных различиях между транскриптомными профилями опухолевых и нормальных образцов. Это согласуется с современными представлениями о том, что опухолевый процесс сопровождается масштабными изменениями регуляции генов, особенно связанных с клеточным циклом, репарацией ДНК и стрессовыми ответами клетки.

Анализ коэффициентов логистической регрессии показал, что наибольший вклад в классификацию вносит ген MKI67, являющийся хорошо известным маркером клеточной пролиферации. Его высокий положительный коэффициент подтверждает ключевую роль усиленной пролиферации в опухолевой трансформации клеток. Существенный вклад генов TP53 и BRCA2 также обоснован, так как нарушения в механизмах контроля клеточного цикла и репарации ДНК являются характерными признаками онкогенеза.

В то же время отрицательные коэффициенты для генов ABCB1 и BRCA1 указывают на их ассоциацию с нормальной тканью. Это может отражать сохранение защитных и регуляторных механизмов в неопухолевых образцах, тогда как их нарушение или изменение экспрессии характерно для опухолевого состояния. 

Следует подчеркнуть, что представленная модель не предназначена для клинической диагностики или оценки индивидуального риска развития рака. Анализ проводился на основе публичных данных TCGA и отражает различия между молекулярными профилями образцов тканей. Кроме того, исследование ограничено одним типом рака (раком молочной железы/BRCA).

Несмотря на указанные ограничения, полученные результаты демонстрируют потенциал интеграции методов машинного обучения и молекулярной биологии для исследовательского анализа онкологических данных. В перспективе подобный подход может быть использован для формирования гипотез для экспериментальной проверки, а также для расширения анализа на другие типы опухолей и дополнительные молекулярные данные.

 

ЗАКЛЮЧЕНИЕ 

В ходе данной исследовательской работы была проанализирована возможность классификации опухолевых и нормальных образцов тканей молочной железы на основе экспрессии ограниченного набора генов с применением методов машинного обучения. В качестве источника данных были использованы RNA-seq данные из открытой базы TCGA.

Построенная модель логистической регрессии продемонстрировала высокие показатели качества классификации, что свидетельствует о наличии выраженных различий между молекулярными профилями опухолевой и нормальной ткани. Использование интерпретируемого алгоритма позволило не только достичь высокой точности, но и проанализировать вклад отдельных генов, связанных с ключевыми процессами онкогенеза, такими как клеточная пролиферация, репарация ДНК и клеточный стресс.

Полученные результаты подтверждают, что даже ограниченный, биологически обоснованный набор генов может быть информативным для исследовательского анализа онкологических данных. Работа демонстрирует потенциал применения методов машинного обучения в сочетании с молекулярной биологией для изучения механизмов опухолевого процесса и формирования дальнейших исследовательских гипотез.

 

ВЫВОДЫ

RNA-seq данные экспрессии генов позволяют эффективно выявлять различия между опухолевыми и нормальными образцами тканей молочной железы.

Использование ограниченного набора биологически значимых генов обеспечивает высокую интерпретируемость модели без существенной потери качества классификации.

Модель логистической регрессии показала высокую точность (Accuracy ≈ 0,95) и устойчивость (ROC-AUC ≈ 0,987), что подтверждает корректность выбранного подхода.

Наибольший вклад в классификацию внесли гены, связанные с пролиферацией и репарацией ДНК (MKI67, TP53, BRCA2), что соответствует современным представлениям о молекулярных механизмах рака.

Разработанный подход может рассматриваться как исследовательский инструмент для анализа транскриптомных данных и отбора перспективных генов для дальнейших экспериментальных исследований.