Я пытаюсь получить рефераты из PubMed с помощью Entrez (Biopython). В коде я собираю данные с помощью Entrez.esearch и Entrez.efetch, записываю их в файл, а затем получаю необходимую информацию в DataFrame. В поиске есть условие для получения статей только с аннотацией ('... И имеет абстрактные[FILT]').
Вот код:
Found 55574 results
Fetched 9946 available abstracts
Read 9946 abstracts
Я ожидал получить такое же или, по крайней мере, близкое к количеству выбранных тезисов количество найденных результатов, но получил всего около 20%. В чем может быть проблема?
Я пытаюсь получить рефераты из PubMed с помощью Entrez (Biopython). В коде я собираю данные с помощью Entrez.esearch и Entrez.efetch, записываю их в файл, а затем получаю необходимую информацию в DataFrame. В поиске есть условие для получения статей только с аннотацией ('... И имеет абстрактные[FILT]'). Вот код: [code]from Bio import Entrez from Bio import Medline import datetime import pandas as pd
# filter for NA df = df.dropna() # change format df['Year'] = df['Year'].astype(int) df['Month'] = df['Month'].astype(int) df['Day'] = df['Day'].astype(int)
count = df.shape[0] print("Fetched %i available abstracts" % count)
docs = list(df['Abstract']) timestamps = [datetime.date(i,j,k) for i,j,k in zip(df['Year'], df['Month'], df['Day'])] print('Read %i abstracts' % len(timestamps)) [/code] Я получаю следующие результаты: [code]Found 55574 results Fetched 9946 available abstracts Read 9946 abstracts [/code] Я ожидал получить такое же или, по крайней мере, близкое к количеству выбранных тезисов количество найденных результатов, но получил всего около 20%. В чем может быть проблема?