Добавьте символы в столбцах из фрейма данных в другой фрейм данных в соответствии с соответствующими строками символов вLinux

Ответить
Anonymous
 Добавьте символы в столбцах из фрейма данных в другой фрейм данных в соответствии с соответствующими строками символов в

Сообщение Anonymous »

У меня есть два фрейма данных, разделенных табуляцией. Оба они являются результатами двух конвейеров аннотации генома. Я хотел бы добавить функции, полученные с помощью второго конвейера, к результатам, полученным с помощью первого.

Первый — это .gff3, который выглядит следующим образом:

Код: Выделить всё

##gff-version 3
scaffold_1  funannotate gene    7752    9560    .   -   .   ID=FUN_000001;
scaffold_1  funannotate mRNA    7752    9560    .   -   .   ID=FUN_000001-T1;Parent=FUN_000001;product=hypothetical protein;Dbxref=InterPro:IPR016197;note=EggNog:ENOG503PT7G;
scaffold_1  funannotate exon    9323    9560    .   -   .   ID=FUN_000001-T1.exon1;Parent=FUN_000001-T1;
scaffold_1  funannotate exon    9099    9268    .   -   .   ID=FUN_000001-T1.exon2;Parent=FUN_000001-T1;
scaffold_1  funannotate exon    7752    8954    .   -   .   ID=FUN_000001-T1.exon3;Parent=FUN_000001-T1;
scaffold_1  funannotate CDS 9323    9560    .   -   0   ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1  funannotate CDS 9099    9268    .   -   2   ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1  funannotate CDS 7752    8954    .   -   0   ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1  funannotate gene    10152   11615   .   -   .   ID=FUN_000002;
scaffold_1  funannotate mRNA    10152   11615   .   -   .   ID=FUN_000002-T1;Parent=FUN_000002;product=hypothetical protein;note=EggNog:ENOG503PTE0;
scaffold_1  funannotate exon    11479   11615   .   -   .   ID=FUN_000002-T1.exon1;Parent=FUN_000002-T1;
scaffold_1  funannotate exon    10152   11421   .   -   .   ID=FUN_000002-T1.exon2;Parent=FUN_000002-T1;
scaffold_1  funannotate CDS 11479   11615   .   -   0   ID=FUN_000002-T1.cds;Parent=FUN_000002-T1;
scaffold_1  funannotate CDS 10152   11421   .   -   1   ID=FUN_000002-T1.cds;Parent=FUN_000002-T1;
scaffold_1  funannotate gene    14672   16909   .   +   .   ID=FUN_000003;
scaffold_1  funannotate mRNA    14672   16909   .   +   .   ID=FUN_000003-T1;Parent=FUN_000003;product=hypothetical protein;Dbxref=InterPro:IPR011009,InterPro:IPR052396;note=COG:S,EggNog:ENOG503NZGI;
scaffold_1  funannotate exon    14672   16909   .   +   .   ID=FUN_000003-T1.exon1;Parent=FUN_000003-T1;
scaffold_1  funannotate CDS 14672   16909   .   +   0   ID=FUN_000003-T1.cds;Parent=FUN_000003-T1;
а второй — это файл .txt, который выглядит следующим образом:

Код: Выделить всё

    Tags    SeqName Description Length  #Hits   e-Value sim mean    #GO GO IDs  GO Names    Enzyme Codes    Enzyme Names    InterPro IDs    InterPro GO IDs InterPro GO Names
true    [INTERPRO, NO-BLAST]    FUN_000001-T1   ---NA---    536                                 G3DSA:2.40.50.40 (GENE3D); mobidb-lite (MOBIDB_LITE); IPR016197 (SUPERFAMILY)   no GO terms no GO terms
true    [INTERPRO, NO-BLAST]    FUN_000002-T1   ---NA---    468                                 mobidb-lite (MOBIDB_LITE)   no GO terms no GO terms
true    [INTERPRO, BLASTED, MAPPED] FUN_000003-T1   SPOK1_PODCOMeiotic driver SPOK1 OS=Podospora comata OX=48703 GN=SPOK1 PE=1 SV=1 745 4   2.05513E-55 41.66   8
Как видите, оба фрейма данных содержат имя гена (например, FUN_000003-T1). Первый фрейм данных содержит его в виде символьной строки в 9-м столбце, тогда как второй фрейм данных имеет столбец, посвященный имени гена.

Первый фрейм данных также имеет несколько строк для 1 гена в зависимости от того, относится ли он к гену, мРНК или экзону.
Я хотел бы добавить информацию, содержащуюся в «SeqName» второго фрейма данных, в качестве дополнительных строк символов в 9-й столбец строки «мРНК» первого фрейма данных, путем сопоставления гена.
Для первого и второго генов (FUN_000001-T1 и FUN_000002-T1) это будут NA. Однако для третьего это будет

Код: Выделить всё

SPOK1_PODCOMeiotic driver SPOK1 OS=Podospora comata
Я не нашел, как это сделать, и буду благодарен за любую помощь.

Подробнее здесь: https://stackoverflow.com/questions/798 ... ding-to-ma
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Linux»