Skip to content

Conversation

smetam
Copy link
Collaborator

@smetam smetam commented Jul 27, 2020

No description provided.

@andrewprzh andrewprzh self-assigned this Aug 18, 2020
Copy link
Collaborator

@andrewprzh andrewprzh left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

В целом все ок, тестов бы парочку добавить, типа где пропускаем экзон похожий на то что по краям интрона и не похожий, можно отсюда взять примеры прямо:
https://docs.google.com/presentation/d/1ePEny-uQo9UruXdrqHFyDIe2jagxKkunfW-N2ByyIIM/edit#slide=id.g84bc58e478_0_445

read_left, read_right = read_junctions[read_cpos]
l, r = isoform_cregion
iso_left, iso_right = isoform_junctions[l][0], isoform_junctions[r][1]
exon_left, exon_right = isoform_junctions[l][1], isoform_junctions[r][0]
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Что если мы пропустили два экзона подряд?

score, size = 0, 1
for a in pairwise2.align.globalms(seq, ref_seq, *self.scores):
score, size = a[2], a[4]
if score > 0.7 * size:
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Если у нас система скора +2, -1, -1, -0.2 как я вижу выше, это достаточно маленькая отсечка.
максимальный скор при полном совпадении как я понимаю будет тогда 2*size
0.7 * size это примерно 57% совпадения символов, достаточно мало. можно ли сделать более классическую систему 1,-1,-1, -0.2? и оставить отсечку примерно такую же, для 0.7 это будет тогда примерно 85% совпадения (что неплохо соответствует количеству ошибок в нанопорах). так как эти регионы плохо выровнялись, значит там может быть больше ошибок, можно поставить отсечку 0.6

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants