У меня есть файл CSV, содержащий список компаний со столбцами «Название компании» и «URL-адрес компании». Я хочу извлечь контактные номера телефонов этих компаний, используя их URL-адреса. Может ли кто-нибудь дать решение, как это сделать?
У меня есть файл CSV, содержащий список компаний со столбцами «Название компании» и «URL-адрес компании». Я хочу извлечь контактные номера телефонов этих компаний, используя их URL-адреса. Может ли кто-нибудь дать решение, как это сделать? [code]import pandas as pd import requests from bs4 import BeautifulSoup # Provide the absolute path file_path = r'D:\VS CODE\scrap_tool\Company_list-1.csv' df = pd.read_csv(file_path)
print(df.head(5)) print(df.columns)
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36' }
# Search for phone numbers using regex patterns phone_numbers = set() for text in soup.stripped_strings: if '+91' in text or text.isdigit(): if len(text) >= 10 and len(text)
У меня есть файл CSV, содержащий список компаний со столбцами «Название компании» и «URL-адрес компании». Я хочу извлечь контактные номера телефонов этих компаний, используя их URL-адреса. Может ли кто-нибудь дать решение, как это сделать?
import...
Я пытаюсь получить данные из Yahoo Finance как часть функции. URL-адрес с «/profile» в конце не работает, но если я его удалю, URL-адрес войдет. Кто-нибудь знает, почему это так? Вот мой код. Не знаю, почему «/profile» нарушает URL-адрес, но это...
Я в настоящее время нахожусь на этапе планирования и еще не написал фактический код реализации. Я пытаюсь понять, какой язык .NET (например, C#) и подход лучше всего подходит для мигрирования URL -адресов от OwnCloud в хранилище Blob -Blob и...
Я делаю проект на Python. У меня есть URL, скажем, Есть еще один такой URL: Итак, оба этих URL-адреса являются дочерними элементами /medal/ (или, как я думал). Теперь есть еще один дочерний URL, например
Я делаю проект на Python. У меня есть URL, скажем, Есть еще один такой URL: Итак, оба этих URL-адреса являются дочерними элементами /medal/ (или, как я думал). Теперь есть еще один дочерний URL, например