Целевой URL
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ ... 8-g078.jpg
< strong>Разбивка
[*]https://cdn.ncbi.nlm.nih.gov/pmc/blobs/ [базовый URL]
[*]d5dd [ идентификатор большого двоичного объекта?]
[*]11665554 [PMCID]
[*]5f64f8cca9f2 [??]
[*]jciinsight-9-186078-g078.jpg [XLink]
< /ul>
XLink
Код: Выделить всё
from Bio import Entrez
from bs4 import BeautifulSoup
with Entrez.efetch(db='pmc', id=11665554) as handle:
content = handle.read()
soup = BeautifulSoup(content, features='xml')
figure = soup.find('graphic')
figure.attrs['xlink:href'] # jciinsight-9-186078-g077
Я хочу знать: откуда взялись d5dd и 5f64f8cca9f2 откуда? Я не вижу этих строк нигде в XML, и они меняются от бумаги к бумаге.
Подробнее здесь: https://stackoverflow.com/questions/793 ... bio-entrez
Мобильная версия