Эффективное сопоставление средних баллов по интервальным окнам

Эффективное сопоставление средних баллов по интервальным окнам ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Эффективное сопоставление средних баллов по интервальным окнам

Цитата

Сообщение Anonymous » 27 сен 2024, 00:54

Например, у меня есть df геномных интервалов с миллионами строк:
chromosome start end
1 300 500
1 400 600
... ... ...

найти центр каждого интервала (+/- 250 от центра начала/конца)

chromosome start end center
1 300 500 400
1 400 600 500
... ... ...

Создать новые окна (-/+ 250 вокруг центра)

chromosome start end center window_start window_end
1 300 500 400 50 750
1 400 600 500 150 850
... ... ...

получить оценки для каждой отдельной позиции в этих окнах (используя мою собственную функцию). Сначала необходимо воссоздать df, используя только Chr, window_start и window_end.

chromosome start end
1 50 750
1 150 850
... ... ...

Моя функция оценки выведет следующий df (намного больше, для каждого интервала будет 500 строк, потому что 1 строка = 1 позиция. В этом примере это будет 1000 строк, потому что у нас 2 интервала). :
chromosome start end score
1 50 50 .8
1 51 51 .2
1 52 52 .12
...
1 750 750 .43
... ... ...

ФИНАЛ: мне нужен график, на котором ось X будет представлять положение относительно центра (-250-е до +250-й позиции), а по оси Y будет средний балл. Поэтому я бы занял -250-ю позицию во всех своих интервалах (здесь у меня только 2 интервала) и усреднил бы эти результаты.

Пример то, что мне нужно, находится здесь:

Чаще всего мне нужна помощь, чтобы перейти от шага 4 к шагу 5 наиболее эффективным способом (шаг 4 не требует много времени, а шаг 5 — в зависимости от того, как я сейчас пишу свой код).
Этот код работает отлично, но он слишком медленный.
def get_postional_avgs(promoter_df):
promoter_df['center'] = (promoter_df['Start'] + promoter_df['End']) // 2

# Calculate window start and end
promoter_df['window_start'] = promoter_df['center'] - 250
promoter_df['window_end'] = promoter_df['center'] + 250

# Prepare a new DataFrame for conservation score requests
conservation_intervals = promoter_df[['Chromosome', 'window_start', 'window_end']]
conservation_intervals.columns = ['Chromosome', 'Start', 'End'] #create a new start/end

# Retrieve base-level conservation scores
base_level_scores = get_base_scores(conservation_intervals)

# Initialize a DataFrame to hold average scores
average_scores = []

for index, row in promoter_df.iterrows():
center = row['center']

# Extract scores for the current cCRE
scores_for_cCRE = base_level_scores[
(base_level_scores['Chromosome'] == row['Chromosome']) &
(base_level_scores['Start'] >= (center - 250)) &
(base_level_scores['End']

Подробнее здесь: https://stackoverflow.com/questions/790 ... al-windows

1727387643

Anonymous

Например, у меня есть df геномных интервалов с миллионами строк:
chromosome   start  end
1             300   500
1             400   600
...           ...   ...

[list]
[*]найти центр каждого интервала (+/- 250 от центра начала/конца)
[/list]chromosome   start  end   center
1             300   500   400
1             400   600   500
...           ...   ...

[list]
[*]Создать новые окна (-/+ 250 вокруг центра)
[/list]
chromosome   start  end   center  window_start   window_end
1             300   500   400       50             750
1             400   600   500       150            850
...           ...   ...


[list]
[*]получить оценки для каждой отдельной позиции в этих окнах (используя мою собственную функцию). Сначала необходимо воссоздать df, используя только Chr, window_start и window_end.
[/list]
chromosome   start  end
1             50    750
1             150   850
...           ...   ...

[list]
[*]
[/list]
Моя функция оценки выведет следующий df (намного больше, для каждого интервала будет 500 строк, потому что 1 строка = 1 позиция. В этом примере это будет 1000 строк, потому что у нас 2 интервала). :
chromosome   start           end          score
1             50            50            .8
1             51            51            .2
1             52            52            .12
...
1             750            750            .43
...           ...   ...

[list]
[*]ФИНАЛ: мне нужен график, на котором ось X будет представлять положение относительно центра (-250-е до +250-й позиции), а по оси Y будет средний балл.  Поэтому я бы занял -250-ю позицию во всех своих интервалах (здесь у меня только 2 интервала) и усреднил бы эти результаты.
[/list]
Пример то, что мне нужно, находится здесь:
[img]https://i.sstatic.net/j5hIGUFd.png[/img]

Чаще всего мне нужна помощь, чтобы перейти от шага 4 к шагу 5 наиболее эффективным способом (шаг 4 не требует много времени, а шаг 5 — в зависимости от того, как я сейчас пишу свой код).
Этот код работает отлично, но он слишком медленный.
def get_postional_avgs(promoter_df):
promoter_df['center'] = (promoter_df['Start'] + promoter_df['End']) // 2

# Calculate window start and end
promoter_df['window_start'] = promoter_df['center'] - 250
promoter_df['window_end'] = promoter_df['center'] + 250

# Prepare a new DataFrame for conservation score requests
conservation_intervals = promoter_df[['Chromosome', 'window_start', 'window_end']]
conservation_intervals.columns = ['Chromosome', 'Start', 'End'] #create a new start/end

# Retrieve base-level conservation scores
base_level_scores = get_base_scores(conservation_intervals)

# Initialize a DataFrame to hold average scores
average_scores = []

for index, row in promoter_df.iterrows():
center = row['center']

# Extract scores for the current cCRE
scores_for_cCRE = base_level_scores[
(base_level_scores['Chromosome'] == row['Chromosome']) &
(base_level_scores['Start'] >= (center - 250)) &
(base_level_scores['End'] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79029220/efficient-mapping-of-average-scores-across-interval-windows[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Эффективное сопоставление средних баллов по интервальным окнам

Последнее сообщение Anonymous « 27 сен 2024, 07:51
Добавлено в форуме Python

Anonymous » 27 сен 2024, 07:51 » в форуме Python

Например, у меня есть df геномных интервалов с миллионами строк:
chromosome start end
1 300 500
1 400 600
... ... ...

найти центр каждого интервала (+/- 250 от центра начала/конца)
chromosome start end center
1 300 500 400
1 400 600 500
... ......

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 07:51
Группирование полного списка баллов с использованием упрощенных баллов, включительно?

Последнее сообщение Anonymous « 07 авг 2025, 02:59
Добавлено в форуме Python

Anonymous » 07 авг 2025, 02:59 » в форуме Python

У меня есть массив формы (A, 2) упрощенных точек. У меня также есть полный массив (b, 2) не смягченные точки. То, что я хочу сделать, это сгруппировать точки как таковые, где показанная большая точка - упрощенная точка, а небольшие точки - полные...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
07 авг 2025, 02:59
GUI сверху Windows в Windows, которые не мешают щелчкам по другим окнам

Последнее сообщение Anonymous « 01 май 2025, 19:18
Добавлено в форуме Python

Anonymous » 01 май 2025, 19:18 » в форуме Python

возникла сложная задача, давайте представим ситуацию, у меня есть компьютерная игра, и я хочу сказать ... Нарисуйте свой курсор, используя Python или некоторые формы. Неважно, почему мне это нужно, мне это просто нужно, и это все =)
Первое, что я...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
01 май 2025, 19:18
Эффективный способ получения общего количества баллов вместе с numpy.unique()

Последнее сообщение Anonymous « 23 ноя 2023, 15:46
Добавлено в форуме Python

Anonymous » 23 ноя 2023, 15:46 » в форуме Python

Моя задача заключается в следующем:

Каждая строка меток представляет идентификаторы учащихся, получивших награды на определенном конкурсе. Каждое соревнование имеет разные весовые коэффициенты, которые задаются весами.

баллыучащихся...

0 Ответы

81 Просмотры

Последнее сообщение Anonymous
23 ноя 2023, 15:46
Я получил 10 баллов на экзамене по алгоритмике; В понедельник у меня экзамен по ООП, статическим переменным/методам и ма

Последнее сообщение Anonymous « 12 апр 2024, 08:38
Добавлено в форуме JAVA

Anonymous » 12 апр 2024, 08:38 » в форуме JAVA

Как следует из названия, я получил 10 на первом экзамене курса, который был чисто алгоритмическим, блок-схемами, переменными и циклами (для, пока, делать-пока и т. д.), но на бумаге. Я игнорировал всю часть кодирования до сих пор, за 5 дней до...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
12 апр 2024, 08:38

Вернуться в «Python»