Веб-скребок не получает полные данные с веб-сайта

Веб-скребок не получает полные данные с веб-сайта ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Веб-скребок не получает полные данные с веб-сайта

Цитата

Сообщение Anonymous » 11 янв 2026, 17:19

Я пытаюсь очистить этот сайт, чтобы подготовить базу данных для лагерей сдачи крови, используя Python.

Во-первых, при попытке получить исходный код html веб-сайта из запросов или urllib возникает ошибка SSL:certificate_verify_error, которую я обошел, установив параметр проверки как False для Requests.get() или создав непроверенный контекст для urllib (быстрое исправление), это позволяет мне обойти ошибку, но когда я вижу полученный исходный html-код, содержимое таблицы, которое мне нужно, пусто, в исходном коде веб-сайта они включены в теги tbody, но моя команда request.get() возвращает мне только эти теги, а не содержимое между ними. Я новичок в парсинге, буду благодарен за небольшое руководство. ты

from urllib.request import urlopen as uReq
import ssl
from bs4 import BeautifulSoup as soup

my_url = 'https://www.eraktkosh.in/BLDAHIMS/blood ... hedule.cnt'
sp_context = ssl._create_unverified_context()
uClient = uReq(my_url,context=sp_context)
page_html = uClient.read()
uClient.close()
page_soup=soup(page_html,"html.parser")
table = page_soup.find('tbody')
print (table) #this outputs ""
trow = table.find('tr')
print (trow) #this outputs "None"

Первая команда печати выдает

и вторые результаты

None

Подробнее здесь: https://stackoverflow.com/questions/565 ... -a-website

1768141153

Anonymous

Я пытаюсь очистить этот сайт, чтобы подготовить базу данных для лагерей сдачи крови, используя Python. 

Во-первых, при попытке получить исходный код html веб-сайта из запросов или urllib возникает ошибка SSL:certificate_verify_error, которую я обошел, установив параметр проверки как False для Requests.get() или создав непроверенный контекст для urllib (быстрое исправление), это позволяет мне обойти ошибку, но когда я вижу полученный исходный html-код, содержимое таблицы, которое мне нужно, пусто, в исходном коде веб-сайта они включены в теги tbody, но моя команда request.get() возвращает мне только эти теги, а не содержимое между ними. Я новичок в парсинге, буду благодарен за небольшое руководство. ты 

from urllib.request import urlopen as uReq
import ssl
from bs4 import BeautifulSoup as soup

my_url = 'https://www.eraktkosh.in/BLDAHIMS/bloodbank/campSchedule.cnt'
sp_context = ssl._create_unverified_context()
uClient = uReq(my_url,context=sp_context)
page_html = uClient.read()
uClient.close()
page_soup=soup(page_html,"html.parser")
table = page_soup.find('tbody')
print (table) #this outputs ""
trow = table.find('tr')
print (trow) #this outputs "None"



Первая команда печати выдает





и вторые результаты

None
 

Подробнее здесь: [url]https://stackoverflow.com/questions/56521995/web-scraper-not-getting-the-full-data-from-a-website[/url]