Невозможно перейти на следующую страницу в LinkedIn при извлечении селена и красивого супа

Невозможно перейти на следующую страницу в LinkedIn при извлечении селена и красивого супа ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Невозможно перейти на следующую страницу в LinkedIn при извлечении селена и красивого супа

Цитата

Сообщение Anonymous » 01 июн 2024, 20:52

Вот шаги, которые я предпринял для решения этой проблемы:
Изначально вы пытались получить данные из LinkedIn с помощью Selenium с Chrome WebDriver. Однако вы столкнулись с проблемой, когда код не смог перейти на следующую страницу из-за сообщения об ошибке.
Вы попытались изменить код, включив логику разбиения на страницы, обнаруженную в Stack Overflow, в частности, используя WebDriverWait и ожидаемые_условия для ожидания. чтобы кнопка следующей страницы была доступна для нажатия перед нажатием на нее. Однако это изменение также привело к ошибке.
Вы попытались запустить код на Firefox WebDriver вместо Chrome WebDriver, надеясь, что это поможет решить проблему с переходом на следующую страницу. Однако вы все равно столкнулись с той же ошибкой.
`import time
from datetime import datetime
from bs4 import Beautiful Soup
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager

source = "linkedin.com"

def get_url(keyword):
"""
Generate URL from keyword.
"""
keyword = keyword.replace(' ', '%20')
url = f"https://www.linkedin.com/search/results ... s={keyword}"
return url

def get_record(card):
"""
Extract candidate data from a single record.
"""
name_tag = card.find('span', class_='entity-result__title-text')
name = name_tag.find('span', attrs={'aria-hidden': 'true'}).get_text(strip=True) if name_tag else ''

title_tag = card.find('div', class_='entity-result__primary-subtitle')
title = title_tag.get_text(strip=True) if title_tag else ''

location_tag = card.find('div', class_='entity-result__secondary-subtitle')
location = location_tag.get_text(strip=True) if location_tag else ''

profile_link_tag = card.find('a', class_='app-aware-link')
profile_url = profile_link_tag['href'] if profile_link_tag else ''
if not profile_url.startswith('https://www.linkedin.com'):
profile_url = 'https://www.linkedin.com' + profile_url

record = (name, title, location, profile_url)
return record

def login_to_linkedin(driver, username, password):
"""
Logs into LinkedIn using provided credentials.
"""
driver.get("https://www.linkedin.com/login")
time.sleep(3)

username_field = driver.find_element(By.ID, 'username')
password_field = driver.find_element(By.ID, 'password')
login_button = driver.find_element(By.XPATH, '//button[@type="submit"]')

username_field.send_keys(username)
password_field.send_keys(password)
login_button.click()
time.sleep(3)

def get_candidates(keyword, username, password, num_candidates=100):
"""
Creates a DataFrame with all records (scraped candidates), scraping from all pages.
"""
url = get_url(keyword)
records = []

# Set up Selenium WebDriver with Chrome
options = Options()
options.headless = False # Set to True if you do not need to see the browser
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# Log in to LinkedIn
login_to_linkedin(driver, username, password)

while len(records) < num_candidates:
print(f"Fetching page: {url}")
driver.get(url)
time.sleep(5) # Allow time for the page to load

soup = BeautifulSoup(driver.page_source, 'html.parser')
cards = soup.find_all('div', class_='entity-result__divider')

for card in cards:
record = get_record(card)
records.append(record)

print(f"Number of candidates found on this page: {len(cards)}")
print(f"Total candidates collected: {len(records)}")

if len(records) >= num_candidates:
break

# Handle pagination to go to the next page
try:
next_button = WebDriverWait(driver, 10).until(
EC.element_to_be_clickable((By.XPATH, '//button[contains(@aria-label, "Next")]'))
)
next_button.click()
time.sleep(5) # Allow time for the next page to load
except Exception as e:
print(f"Exception encountered while trying to navigate to next page: {e}")
break

driver.quit()

# Save the data as DataFrame
columns = ['name', 'title', 'location', 'profile_url']
df = pd.DataFrame(data=records[:num_candidates], columns=columns)

# Adding to DataFrame columns with search parameters
search_time = datetime.now().strftime("%d/%m/%Y, %H:%M:%S")
df["search_time"] = search_time
df["search_keyword"] = keyword
df["source"] = source

return df

# LinkedIn credentials
username = "oluseyeoyeniran@gmail.com"
password = "july1981"

# Search keyword for candidates open to work in Africa
keyword = "#opentowork #Microsoft - Seeking 'Africa"

# Example usage
df = get_candidates(keyword, username, password)
df.head()
`

Подробнее здесь: https://stackoverflow.com/questions/785 ... nium-and-b

1717264362

Anonymous

Вот шаги, которые я предпринял для решения этой проблемы:
Изначально вы пытались получить данные из LinkedIn с помощью Selenium с Chrome WebDriver. Однако вы столкнулись с проблемой, когда код не смог перейти на следующую страницу из-за сообщения об ошибке.
Вы попытались изменить код, включив логику разбиения на страницы, обнаруженную в Stack Overflow, в частности, используя WebDriverWait и ожидаемые_условия для ожидания. чтобы кнопка следующей страницы была доступна для нажатия перед нажатием на нее. Однако это изменение также привело к ошибке.
Вы попытались запустить код на Firefox WebDriver вместо Chrome WebDriver, надеясь, что это поможет решить проблему с переходом на следующую страницу.  Однако вы все равно столкнулись с той же ошибкой.
`import time
from datetime import datetime
from bs4 import Beautiful Soup
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager

source = "linkedin.com"

def get_url(keyword):
"""
Generate URL from keyword.
"""
keyword = keyword.replace(' ', '%20')
url = f"https://www.linkedin.com/search/results/people/?keywords={keyword}"
return url

def get_record(card):
"""
Extract candidate data from a single record.
"""
name_tag = card.find('span', class_='entity-result__title-text')
name = name_tag.find('span', attrs={'aria-hidden': 'true'}).get_text(strip=True) if name_tag else ''

title_tag = card.find('div', class_='entity-result__primary-subtitle')
title = title_tag.get_text(strip=True) if title_tag else ''

location_tag = card.find('div', class_='entity-result__secondary-subtitle')
location = location_tag.get_text(strip=True) if location_tag else ''

profile_link_tag = card.find('a', class_='app-aware-link')
profile_url = profile_link_tag['href'] if profile_link_tag else ''
if not profile_url.startswith('https://www.linkedin.com'):
profile_url = 'https://www.linkedin.com' + profile_url

record = (name, title, location, profile_url)
return record

def login_to_linkedin(driver, username, password):
"""
Logs into LinkedIn using provided credentials.
"""
driver.get("https://www.linkedin.com/login")
time.sleep(3)

username_field = driver.find_element(By.ID, 'username')
password_field = driver.find_element(By.ID, 'password')
login_button = driver.find_element(By.XPATH, '//button[@type="submit"]')

username_field.send_keys(username)
password_field.send_keys(password)
login_button.click()
time.sleep(3)

def get_candidates(keyword, username, password, num_candidates=100):
"""
Creates a DataFrame with all records (scraped candidates), scraping from all pages.
"""
url = get_url(keyword)
records = []

# Set up Selenium WebDriver with Chrome
options = Options()
options.headless = False  # Set to True if you do not need to see the browser
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# Log in to LinkedIn
login_to_linkedin(driver, username, password)

while len(records) <  num_candidates:
print(f"Fetching page: {url}")
driver.get(url)
time.sleep(5)  # Allow time for the page to load

soup = BeautifulSoup(driver.page_source, 'html.parser')
cards = soup.find_all('div', class_='entity-result__divider')

for card in cards:
record = get_record(card)
records.append(record)

print(f"Number of candidates found on this page: {len(cards)}")
print(f"Total candidates collected: {len(records)}")

if len(records) >= num_candidates:
break

# Handle pagination to go to the next page
try:
next_button = WebDriverWait(driver, 10).until(
EC.element_to_be_clickable((By.XPATH, '//button[contains(@aria-label, "Next")]'))
)
next_button.click()
time.sleep(5)  # Allow time for the next page to load
except Exception as e:
print(f"Exception encountered while trying to navigate to next page: {e}")
break

driver.quit()

# Save the data as DataFrame
columns = ['name', 'title', 'location', 'profile_url']
df = pd.DataFrame(data=records[:num_candidates], columns=columns)

# Adding to DataFrame columns with search parameters
search_time = datetime.now().strftime("%d/%m/%Y, %H:%M:%S")
df["search_time"] = search_time
df["search_keyword"] = keyword
df["source"] = source

return df

# LinkedIn credentials
username = "oluseyeoyeniran@gmail.com"
password = "july1981"

# Search keyword for candidates open to work in Africa
keyword = "#opentowork #Microsoft - Seeking 'Africa"

# Example usage
df = get_candidates(keyword, username, password)
df.head()
`
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78564536/un-able-to-navigate-to-next-page-on-linkedin-when-extracting-with-selenium-and-b[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблема с очисткой веб-страниц с использованием селена и красивого супа

Последнее сообщение Anonymous « 30 июл 2024, 15:04
Добавлено в форуме Python

Anonymous » 30 июл 2024, 15:04 » в форуме Python

Я создаю сайт сравнения цен для своего университетского проекта. Я пытаюсь распечатать товары и цены с этого сайта но получил эту ошибку.
Exception has occurred: TypeError
'NoneType' object is not callable
File C:\xampp\htdocs\Price\test.py , line...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 15:04
Проблема с очисткой веб-страниц с использованием селена и красивого супа

Последнее сообщение Anonymous « 30 июл 2024, 16:07
Добавлено в форуме Python

Anonymous » 30 июл 2024, 16:07 » в форуме Python

Я создаю сайт сравнения цен для своего университетского проекта. Я пытаюсь распечатать товары и цены с этого сайта но получил эту ошибку.
Exception has occurred: TypeError
'NoneType' object is not callable
File C:\xampp\htdocs\Price\test.py , line...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 16:07
Проблема с очисткой веб-страниц с использованием селена и красивого супа

Последнее сообщение Anonymous « 31 июл 2024, 13:04
Добавлено в форуме Python

Anonymous » 31 июл 2024, 13:04 » в форуме Python

Я создаю сайт сравнения цен для своего университетского проекта. Я пытаюсь распечатать товары и цены с этого сайта но получаю следующую ошибку:Exception has occurred: TypeError
'NoneType' object is not callable
File C:\xampp\htdocs\Price\test.py ,...

0 Ответы

59 Просмотры

Последнее сообщение Anonymous
31 июл 2024, 13:04
Невозможно добавить сертификат в профиль LinkedIn через LinkedIn API, если приложение LinkedIn установлено на iOS.

Последнее сообщение Anonymous « 26 июн 2024, 09:01
Добавлено в форуме IOS

Anonymous » 26 июн 2024, 09:01 » в форуме IOS

== Краткое описание проблемы ==

Проблема заключается в том, что при открытии URL-адреса из моего приложения для iOS, который добавляет сертификат в профиль пользователя в LinkedIn, происходит перенаправление в приложение LinkedIn ( если...

0 Ответы

63 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 09:01
Как выбрать конкретный тег div или pragraph из HTML-контента с помощью красивого супа?

Последнее сообщение Anonymous « 03 ноя 2024, 18:08
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 18:08 » в форуме Python

Я использую Beautiful Soup, чтобы извлечь текстовое содержимое из данных HTML. У меня есть тег div и несколько абзацев, а последний абзац — это информация об авторских правах с логотипом авторских прав, годом и некоторой дополнительной информацией....

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 18:08

Вернуться в «Python»