Первый — это .gff3, который выглядит следующим образом:
Код: Выделить всё
##gff-version 3
scaffold_1 funannotate gene 7752 9560 . - . ID=FUN_000001;
scaffold_1 funannotate mRNA 7752 9560 . - . ID=FUN_000001-T1;Parent=FUN_000001;product=hypothetical protein;Dbxref=InterPro:IPR016197;note=EggNog:ENOG503PT7G;
scaffold_1 funannotate exon 9323 9560 . - . ID=FUN_000001-T1.exon1;Parent=FUN_000001-T1;
scaffold_1 funannotate exon 9099 9268 . - . ID=FUN_000001-T1.exon2;Parent=FUN_000001-T1;
scaffold_1 funannotate exon 7752 8954 . - . ID=FUN_000001-T1.exon3;Parent=FUN_000001-T1;
scaffold_1 funannotate CDS 9323 9560 . - 0 ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1 funannotate CDS 9099 9268 . - 2 ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1 funannotate CDS 7752 8954 . - 0 ID=FUN_000001-T1.cds;Parent=FUN_000001-T1;
scaffold_1 funannotate gene 10152 11615 . - . ID=FUN_000002;
scaffold_1 funannotate mRNA 10152 11615 . - . ID=FUN_000002-T1;Parent=FUN_000002;product=hypothetical protein;note=EggNog:ENOG503PTE0;
scaffold_1 funannotate exon 11479 11615 . - . ID=FUN_000002-T1.exon1;Parent=FUN_000002-T1;
scaffold_1 funannotate exon 10152 11421 . - . ID=FUN_000002-T1.exon2;Parent=FUN_000002-T1;
scaffold_1 funannotate CDS 11479 11615 . - 0 ID=FUN_000002-T1.cds;Parent=FUN_000002-T1;
scaffold_1 funannotate CDS 10152 11421 . - 1 ID=FUN_000002-T1.cds;Parent=FUN_000002-T1;
scaffold_1 funannotate gene 14672 16909 . + . ID=FUN_000003;
scaffold_1 funannotate mRNA 14672 16909 . + . ID=FUN_000003-T1;Parent=FUN_000003;product=hypothetical protein;Dbxref=InterPro:IPR011009,InterPro:IPR052396;note=COG:S,EggNog:ENOG503NZGI;
scaffold_1 funannotate exon 14672 16909 . + . ID=FUN_000003-T1.exon1;Parent=FUN_000003-T1;
scaffold_1 funannotate CDS 14672 16909 . + 0 ID=FUN_000003-T1.cds;Parent=FUN_000003-T1;
Код: Выделить всё
Tags SeqName Description Length #Hits e-Value sim mean #GO GO IDs GO Names Enzyme Codes Enzyme Names InterPro IDs InterPro GO IDs InterPro GO Names
true [INTERPRO, NO-BLAST] FUN_000001-T1 ---NA--- 536 G3DSA:2.40.50.40 (GENE3D); mobidb-lite (MOBIDB_LITE); IPR016197 (SUPERFAMILY) no GO terms no GO terms
true [INTERPRO, NO-BLAST] FUN_000002-T1 ---NA--- 468 mobidb-lite (MOBIDB_LITE) no GO terms no GO terms
true [INTERPRO, BLASTED, MAPPED] FUN_000003-T1 SPOK1_PODCOMeiotic driver SPOK1 OS=Podospora comata OX=48703 GN=SPOK1 PE=1 SV=1 745 4 2.05513E-55 41.66 8
Первый фрейм данных также имеет несколько строк для 1 гена в зависимости от того, относится ли он к гену, мРНК или экзону.
Я хотел бы добавить информацию, содержащуюся в «SeqName» второго фрейма данных, в качестве дополнительных строк символов в 9-й столбец строки «мРНК» первого фрейма данных, путем сопоставления гена.
Для первого и второго генов (FUN_000001-T1 и FUN_000002-T1) это будут NA. Однако для третьего это будет
Код: Выделить всё
SPOK1_PODCOMeiotic driver SPOK1 OS=Podospora comata
Подробнее здесь: https://stackoverflow.com/questions/798 ... ding-to-ma
Мобильная версия