Как отфильтровать генетическую таблицу града на основе файла A .txt с правильными строками? - Цифровое Кемерово

Как отфильтровать генетическую таблицу града на основе файла A .txt с правильными строками? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как отфильтровать генетическую таблицу града на основе файла A .txt с правильными строками?

Цитата

Сообщение Anonymous » 13 фев 2025, 21:54

Если у меня есть град генетической таблицы, подобной этой, на моем ноутбуке Jupyter Python: < /p>
variant_qc
gq_stats info
locus alleles filters a_index was_split mean stdev min max call_rate n_called p_value_excess_het AC AF AN homozygote_count ...
locus array set int32 bool float64 float64 float64 float64 float64 int64 int64 int64 int64 int64 float64 float64 float64 array array int32 array
chr1:7756105 ["A","C"] {} 1 False 4.08e+01 3.98e+00 3.00e+00 9.90e+01 1.00e+00 414672 0 158 41333 42840 1.01e-01 1.79e-21 1.00e+00 [44347] [5.35e-02] 829344 [371832,1507]
chr1:8618725 ["C","G"] {} 1 True 8.29e+01 2.31e+01 1.00e+00 9.90e+01 1.00e+00 414829 0 1 2 2 4.82e-06 5.00e-01 5.00e-01 [2] [2.41e-06] 829658 [414827,0]
chr1:8618725 ["C","T"] {} 2 True 8.29e+01 2.31e+01 1.00e+00 9.90e+01 1.00e+00 414829 0 1 100530 403020 2.54e-01 1.05e-196 1.00e+00 [705510] [8.50e-01] 829658 [11809,302490]
< /code>
Если я заинтересован в столбце локуса и аллелей, вы можете увидеть некоторые варианты в первом столбце, называемом Locus, его повторяется, но с разными аллелями (2 -й столбец). Теперь, если у меня есть второй файл .txt, который я хочу использовать фильтр Приведенный выше таблицу: < /p>
CHR POS REF ALT A1 BETA
chr1 7756105 A C C -0.155523
chr1 8618725 C T C -0.13646
< /code>
Я хочу отфильтровать строки в первой таблице, которые не соответствуют текстовому файлу, например, Chr1: 8618725 ["c", "g"] пойдет из первой таблицы. < /p>
Ожидаемый выход: < /p>
variant_qc
gq_stats info
locus alleles filters a_index was_split mean stdev min max call_rate n_called p_value_excess_het AC AF AN homozygote_count ...
locus array set int32 bool float64 float64 float64 float64 float64 int64 int64 int64 int64 int64 float64 float64 float64 array array int32 array
chr1:7756105 ["A","C"] {} 1 False 4.08e+01 3.98e+00 3.00e+00 9.90e+01 1.00e+00 414672 0 158 41333 42840 1.01e-01 1.79e-21 1.00e+00 [44347] [5.35e-02] 829344 [371832,1507]
chr1:8618725 ["C","T"] {} 2 True 8.29e+01 2.31e+01 1.00e+00 9.90e+01 1.00e+00 414829 0 1 100530 403020 2.54e-01 1.05e-196 1.00e+00 [705510] [8.50e-01] 829658 [11809,302490]
< /code>
Код, который я пробовал: < /p>
# Load the filter file as a Pandas DataFrame
filter_df = pd.read_csv("list_uc_snp_list_sep.txt", sep="\t", dtype=str)

# Convert the filter file into a Hail Table
filter_ht = hl.Table.parallelize(
hl.literal(filter_df.to_dict(orient="records")),
hl.tstruct(CHR=hl.tstr, POS=hl.tstr, REF=hl.tstr, ALT=hl.tstr, A1=hl.tstr, BETA=hl.tstr)
)

# Create 'locus' and 'alleles' fields to match the Hail table
filter_ht = filter_ht.annotate(
locus=hl.locus(filter_ht.CHR, hl.int32(filter_ht.POS), reference_genome="GRCh38"),
alleles=[filter_ht.REF, filter_ht.ALT]
)

# Filter WGS_split_mt_full_list_ofSNPs by keeping only matching rows
filtered_mt = WGS_split_mt_full_list_ofSNPs.filter_rows(
hl.is_defined(filter_ht.key_by("locus", "alleles")[WGS_split_mt_full_list_ofSNPs.locus,
WGS_split_mt_full_list_ofSNPs.alleles])
)
< /code>
Но это не работает ... Я получаю ошибку при выполнении первого шага. Я никогда раньше не использовал Python, поэтому не знаю, как я смогу это сделать. Я свободно владею р. Есть ли способ преобразовать таблицу града в R, или, если нет, как я могу использовать Python ...

Подробнее здесь: https://stackoverflow.com/questions/794 ... orrect-row

Реклама

1739472867

Anonymous

 Если у меня есть град генетической таблицы, подобной этой, на моем ноутбуке Jupyter Python: < /p>
variant_qc
gq_stats                                                    info
locus   alleles filters a_index was_split   mean    stdev   min max call_rate   n_called    p_value_excess_het  AC  AF  AN  homozygote_count ...
locus   array  set    int32   bool    float64 float64 float64 float64 float64 int64   int64   int64   int64   int64   float64 float64 float64 array    array  int32   array
chr1:7756105    ["A","C"]   {}  1   False   4.08e+01    3.98e+00    3.00e+00    9.90e+01    1.00e+00    414672  0   158 41333   42840   1.01e-01    1.79e-21    1.00e+00    [44347] [5.35e-02]  829344  [371832,1507]
chr1:8618725    ["C","G"]   {}  1   True    8.29e+01    2.31e+01    1.00e+00    9.90e+01    1.00e+00    414829  0   1   2   2   4.82e-06    5.00e-01    5.00e-01    [2] [2.41e-06]  829658  [414827,0]
chr1:8618725    ["C","T"]   {}  2   True    8.29e+01    2.31e+01    1.00e+00    9.90e+01    1.00e+00    414829  0   1   100530  403020  2.54e-01    1.05e-196   1.00e+00    [705510]    [8.50e-01]  829658  [11809,302490]
< /code>
Если я заинтересован в столбце локуса и аллелей, вы можете увидеть некоторые варианты в первом столбце, называемом Locus, его повторяется, но с разными аллелями (2 -й столбец). Теперь, если у меня есть второй файл .txt, который я хочу использовать фильтр Приведенный выше таблицу: < /p>
CHR     POS     REF ALT A1  BETA
chr1    7756105 A   C   C   -0.155523
chr1    8618725 C   T   C   -0.13646
< /code>
Я хочу отфильтровать строки в первой таблице, которые не соответствуют текстовому файлу, например, Chr1: 8618725 ["c", "g"] пойдет из первой таблицы. < /p>
Ожидаемый выход: < /p>
variant_qc
gq_stats                                                    info
locus   alleles filters a_index was_split   mean    stdev   min max call_rate   n_called    p_value_excess_het  AC  AF  AN  homozygote_count ...
locus   array  set    int32   bool    float64 float64 float64 float64 float64 int64   int64   int64   int64   int64   float64 float64 float64 array    array  int32   array
chr1:7756105    ["A","C"]   {}  1   False   4.08e+01    3.98e+00    3.00e+00    9.90e+01    1.00e+00    414672  0   158 41333   42840   1.01e-01    1.79e-21    1.00e+00    [44347] [5.35e-02]  829344  [371832,1507]
chr1:8618725    ["C","T"]   {}  2   True    8.29e+01    2.31e+01    1.00e+00    9.90e+01    1.00e+00    414829  0   1   100530  403020  2.54e-01    1.05e-196   1.00e+00    [705510]    [8.50e-01]  829658  [11809,302490]
< /code>
Код, который я пробовал: < /p>
# Load the filter file as a Pandas DataFrame
filter_df = pd.read_csv("list_uc_snp_list_sep.txt", sep="\t", dtype=str)

# Convert the filter file into a Hail Table
filter_ht = hl.Table.parallelize(
hl.literal(filter_df.to_dict(orient="records")),
hl.tstruct(CHR=hl.tstr, POS=hl.tstr, REF=hl.tstr, ALT=hl.tstr, A1=hl.tstr, BETA=hl.tstr)
)

# Create 'locus' and 'alleles' fields to match the Hail table
filter_ht = filter_ht.annotate(
locus=hl.locus(filter_ht.CHR, hl.int32(filter_ht.POS), reference_genome="GRCh38"),
alleles=[filter_ht.REF, filter_ht.ALT]
)

# Filter WGS_split_mt_full_list_ofSNPs by keeping only matching rows
filtered_mt = WGS_split_mt_full_list_ofSNPs.filter_rows(
hl.is_defined(filter_ht.key_by("locus", "alleles")[WGS_split_mt_full_list_ofSNPs.locus,
WGS_split_mt_full_list_ofSNPs.alleles])
)
< /code>
Но это не работает ... Я получаю ошибку при выполнении первого шага. Я никогда раньше не использовал Python, поэтому не знаю, как я смогу это сделать. Я свободно владею р. Есть ли способ преобразовать таблицу града в R, или, если нет, как я могу использовать Python ...  

Подробнее здесь: [url]https://stackoverflow.com/questions/79437460/how-to-filter-a-hail-genetic-table-based-on-the-a-txt-file-with-the-correct-row[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сопоставить свойство с правильными столбцами базы данных с правильными значениями, используя те же преобразования, к

Последнее сообщение Anonymous « 20 сен 2024, 14:05
Добавлено в форуме C#

Anonymous » 20 сен 2024, 14:05 » в форуме C#

В моем приложении я добавляю фильтры во внешнем интерфейсе. Интерфейс получит список всех возможных значений свойства для фильтрации. Чтобы получить все возможные значения, я получаю все различные значения из столбца базы данных.
var possibleNames...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 14:05
Неверный максимальный размер кучи -Xmx0m при инициализации града в Python

Последнее сообщение Anonymous « 17 апр 2024, 23:52
Добавлено в форуме JAVA

Anonymous » 17 апр 2024, 23:52 » в форуме JAVA

Я пытаюсь инициализировать град с помощью следующей команды:
import hail as hl
hl.init()

но я получаю сообщение об ошибке ниже.
Выбрано _JAVA_OPTIONS: -Xmx256M
Выбрано up _JAVA_OPTIONS: -Xmx256M
Неверный максимальный размер кучи: -Xmx0m
Ошибка:...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
17 апр 2024, 23:52
Как получить данные из txt-файла и отправить их в таблицу Excel? (Мне нужно только все, что после «:» в txt-файле)?

Последнее сообщение Anonymous « 26 дек 2024, 17:07
Добавлено в форуме JAVA

Anonymous » 26 дек 2024, 17:07 » в форуме JAVA

У меня есть программа (ниже), которая принимает текстовые файлы и помещает их в таблицу Excel. Моя цель — извлечь данные из текстового файла, но только текст после двоеточия.

Пример txt-файла (без пробела между строками «name:» и «phone:» в txt):...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
26 дек 2024, 17:07
Как получить данные из файла TXT и отправить их в электронную таблицу Excel? (Я хочу всего всего после «:» в файле TXT)?

Последнее сообщение Anonymous « 26 авг 2025, 02:03
Добавлено в форуме JAVA

Anonymous » 26 авг 2025, 02:03 » в форуме JAVA

У меня есть программа (ниже), которая принимает файлы TXT и помещает их в электронную таблицу Excel. Моя цель состоит в том, чтобы извлечь данные из текстового файла, но только текст только после толстой кишки. /> Я хочу, чтобы моя программа...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
26 авг 2025, 02:03
Проверьте генетическую коллекцию с помощью SetValidator в Fluentvalidation.

Последнее сообщение Anonymous « 03 окт 2024, 01:58
Добавлено в форуме C#

Anonymous » 03 окт 2024, 01:58 » в форуме C#

Я пытаюсь проверить универсальный тип:
public class Request where T : class
{

public int Test { get; set; }

public List Records { get; set; } = [];
}

Как установить SetValidator? Я столкнулся с ошибкой: невозможно преобразовать...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 01:58

Вернуться в «Python»

Programmiererforum