Как обнаружить и соскрести конкретную языковую версию многоязычной публикации, если таковой имеется? - Цифровое Кемерово

Как обнаружить и соскрести конкретную языковую версию многоязычной публикации, если таковой имеется? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как обнаружить и соскрести конкретную языковую версию многоязычной публикации, если таковой имеется?

Цитата

Сообщение Anonymous » 17 апр 2025, 23:43

Я написал сценарий Python для очистки данных с Who Whos, я хотел получить заголовок, имя автора, дату, ссылку на PDF и ссылку на детскую страницу со страницы родителей (я применил некоторые фильтры на странице родителей)
Я получаю данные в CSV идеально нормально в каждом столбце, но для многих записей язык превращается на арабский язык или на другой язык, даже если то же самое можно сказать на английском на веб -сайте. Даже ссылка на PDF перенаправляется на PDF на разных языках, даже если есть английская версия. Filter в противном случае я потеряю свои данные.import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random
from http.client import RemoteDisconnected

BASE_URL = "https://iris.who.int"
PAGE_COUNT = 51 # Total pages
RPP = 100 # Results per page

# List of user-agents
USER_AGENTS = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 13_0) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15 Safari/605.1.15",
"Mozilla/5.0 (Windows NT 10.0; Win64; rv:90.0) Gecko/20100101 Firefox/90.0",
]

session = requests.Session()

def get_with_retries(url, max_retries=3):
for attempt in range(max_retries):
try:
headers = {
"User-Agent": random.choice(USER_AGENTS)
}
res = session.get(url, headers=headers, timeout=20)
if res.status_code == 429:
wait = 30 + random.randint(10, 30)
print(f"

Rate limit hit. Waiting {wait}s...")
time.sleep(wait)
continue
res.raise_for_status()
return res
except RemoteDisconnected:
wait = 10 + attempt * 10
print(f"[!] RemoteDisconnected — retrying in {wait}s...")
time.sleep(wait)
except requests.exceptions.RequestException as e:
print(f"[!] Attempt {attempt + 1}/{max_retries} failed for {url}: {e}")
time.sleep(10 * (attempt + 1)) # exponential backoff
return None

def extract_details(item):
# Check if language attribute is English
lang = item.get("lang", "en")
if lang != "en":
return None # Skip non-English

title_tag = item.find("h4", class_="artifact-title")
title = title_tag.get_text(strip=True) if title_tag else "N/A"

author_tag = item.find("span", class_="author")
if author_tag and author_tag.get("lang") and author_tag["lang"] != "en":
return None # Skip if author explicitly marked non-English
author = author_tag.get_text(strip=True) if author_tag else "N/A"

date_tag = item.find("span", class_="govdoc-date")
dates = date_tag.get_text(strip=True) if date_tag else "N/A"

href = item.find("a", href=True)
child_url = BASE_URL + href["href"] if href else "N/A"

return title, author, dates, child_url

def extract_pdf_link(child_url):
response = get_with_retries(child_url)
if not response:
return None

soup = BeautifulSoup(response.content, 'html.parser')

# Prefer links that are clearly English
pdf_links = soup.find_all("a", href=lambda x: x and ".pdf" in x)

for link in pdf_links:
href = link['href']
text = link.get_text(strip=True).lower()
if "english" in text or "en" in href:
return BASE_URL + href

# fallback if no clear English link
if pdf_links:
return BASE_URL + pdf_links[0]['href']

return None

# Main scraping loop
data = []

for page_num in range(PAGE_COUNT):
print(f"\n

Scraping page {page_num + 1}/{PAGE_COUNT}...")
url = f"https://iris.who.int/discover?filtertyp ... ={page_num}"
res = get_with_retries(url)
if not res:
print(f"[!] Skipping page {page_num + 1} due to repeated failures.")
continue

soup = BeautifulSoup(res.text, "html.parser")
items = soup.select(".ds-artifact-item")

for item in items:
result = extract_details(item)
if not result:
continue # Skip non-English

title, author, dates, child_url = result
pdf_link = extract_pdf_link(child_url) if child_url != "N/A" else "N/A"

if pdf_link is None:
continue # Skip if no valid PDF found

row = {
"Title": title,
"Author": author,
"Dates": dates,
"PDF_Link": pdf_link,
"Child_Page": child_url
}
data.append(row)
print(f"

Added: {title[:60]}...")

time.sleep(random.uniform(2, 5)) # Random polite pause between items

time.sleep(random.uniform(4, 8)) # Random pause between pages

# Save to file
df = pd.DataFrame(data)
df.to_csv("who_data_english_only.csv", index=False, encoding="utf-8-sig")
print(f"\n

Done! {len(df)} entries saved to who_data_english_only.csv")

Подробнее здесь: https://stackoverflow.com/questions/795 ... -publicati

Реклама

1744922627

Anonymous

 Я написал сценарий Python для очистки данных с Who Whos, я хотел получить заголовок, имя автора, дату, ссылку на PDF и ссылку на детскую страницу со страницы родителей (я применил некоторые фильтры на странице родителей)
Я получаю данные в CSV идеально нормально в каждом столбце, но для многих записей язык превращается на арабский язык или на другой язык, даже если то же самое можно сказать на английском на веб -сайте. Даже ссылка на PDF перенаправляется на PDF на разных языках, даже если есть английская версия. Filter   в противном случае я потеряю свои данные.import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random
from http.client import RemoteDisconnected

BASE_URL = "https://iris.who.int"
PAGE_COUNT = 51  # Total pages
RPP = 100  # Results per page

# List of user-agents
USER_AGENTS = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 13_0) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15 Safari/605.1.15",
"Mozilla/5.0 (Windows NT 10.0; Win64; rv:90.0) Gecko/20100101 Firefox/90.0",
]

session = requests.Session()

def get_with_retries(url, max_retries=3):
for attempt in range(max_retries):
try:
headers = {
"User-Agent": random.choice(USER_AGENTS)
}
res = session.get(url, headers=headers, timeout=20)
if res.status_code == 429:
wait = 30 + random.randint(10, 30)
print(f"⚠️  Rate limit hit.  Waiting {wait}s...")
time.sleep(wait)
continue
res.raise_for_status()
return res
except RemoteDisconnected:
wait = 10 + attempt * 10
print(f"[!] RemoteDisconnected — retrying in {wait}s...")
time.sleep(wait)
except requests.exceptions.RequestException as e:
print(f"[!] Attempt {attempt + 1}/{max_retries} failed for {url}: {e}")
time.sleep(10 * (attempt + 1))  # exponential backoff
return None

def extract_details(item):
# Check if language attribute is English
lang = item.get("lang", "en")
if lang != "en":
return None  # Skip non-English

title_tag = item.find("h4", class_="artifact-title")
title = title_tag.get_text(strip=True) if title_tag else "N/A"

author_tag = item.find("span", class_="author")
if author_tag and author_tag.get("lang") and author_tag["lang"] != "en":
return None  # Skip if author explicitly marked non-English
author = author_tag.get_text(strip=True) if author_tag else "N/A"

date_tag = item.find("span", class_="govdoc-date")
dates = date_tag.get_text(strip=True) if date_tag else "N/A"

href = item.find("a", href=True)
child_url = BASE_URL + href["href"] if href else "N/A"

return title, author, dates, child_url

def extract_pdf_link(child_url):
response = get_with_retries(child_url)
if not response:
return None

soup = BeautifulSoup(response.content, 'html.parser')

# Prefer links that are clearly English
pdf_links = soup.find_all("a", href=lambda x: x and ".pdf" in x)

for link in pdf_links:
href = link['href']
text = link.get_text(strip=True).lower()
if "english" in text or "en" in href:
return BASE_URL + href

# fallback if no clear English link
if pdf_links:
return BASE_URL + pdf_links[0]['href']

return None

# Main scraping loop
data = []

for page_num in range(PAGE_COUNT):
print(f"\n🔍 Scraping page {page_num + 1}/{PAGE_COUNT}...")
url = f"https://iris.who.int/discover?filtertype=dateIssued&filter_relational_operator=equals&filter=2025&rpp={RPP}&page={page_num}"
res = get_with_retries(url)
if not res:
print(f"[!] Skipping page {page_num + 1} due to repeated failures.")
continue

soup = BeautifulSoup(res.text, "html.parser")
items = soup.select(".ds-artifact-item")

for item in items:
result = extract_details(item)
if not result:
continue  # Skip non-English

title, author, dates, child_url = result
pdf_link = extract_pdf_link(child_url) if child_url != "N/A" else "N/A"

if pdf_link is None:
continue  # Skip if no valid PDF found

row = {
"Title": title,
"Author": author,
"Dates": dates,
"PDF_Link": pdf_link,
"Child_Page": child_url
}
data.append(row)
print(f"✅ Added: {title[:60]}...")

time.sleep(random.uniform(2, 5))  # Random polite pause between items

time.sleep(random.uniform(4, 8))  # Random pause between pages

# Save to file
df = pd.DataFrame(data)
df.to_csv("who_data_english_only.csv", index=False, encoding="utf-8-sig")
print(f"\n✅ Done! {len(df)} entries saved to who_data_english_only.csv")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79578485/how-to-detect-and-scrape-a-specific-language-version-of-a-multilingual-publicati[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как найти конкретную версию Curl, которая использует конкретную версию пакета libldap?

Последнее сообщение Anonymous « 17 окт 2024, 16:43
Добавлено в форуме Linux

Anonymous » 17 окт 2024, 16:43 » в форуме Linux

Я хочу, чтобы на сервере Ubuntu была установлена версия libldap libldap-2.4-2:amd64 и curl.
Я загружаю libldap с /openldap/libldap-2.4-2_2.4.57+dfsg-3+deb11u1_amd64.deb и затем установите его.
Я устанавливаю Curl с помощью sudo apt -y install...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 16:43
Как изменить языковую версию в Visual Studio 2015

Последнее сообщение Anonymous « 14 фев 2025, 12:35
Добавлено в форуме C#

Anonymous » 14 фев 2025, 12:35 » в форуме C#

Я хочу использовать оператор «Имя» в моем проекте C# в Visual Studio 2015, но компилятор жалуется следующим сообщением.

Функция 'nameof operator' не доступна в C# 5. Пожалуйста, используйте
language версию 6 или более.

Я хочу знать, как я...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 12:35
Как установить языковую версию C# в задаче сценария SSIS? [дублировать]

Последнее сообщение Anonymous « 19 фев 2025, 04:35
Добавлено в форуме C#

Anonymous » 19 фев 2025, 04:35 » в форуме C#

Мы разрабатываем пакет SSIS с задачей скрипта, и мы хотим использовать тестируемый файл класса C#. Итак, в редакторе кода задачи сценария мы добавили существующий файл класса C# в проект ST_XXXXXX в качестве связанного файла.
Теперь у нас есть...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 04:35
Как реализовать анализатор статического кода на основе LSP с поддержкой многоязычной (C/C ++, Python, Fortran, Pascal, C

Последнее сообщение Anonymous « 03 май 2025, 14:14
Добавлено в форуме Python

Anonymous » 03 май 2025, 14:14 » в форуме Python

Я работаю над инструментом SaaS, основанным на исследованиях, который анализирует устаревшие кодовые базы, извлекает их архитектуру и сохраняет результат в базе данных график (NEO4J) для дальнейшего использования с LLMS (например, для диаграммы UML...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 май 2025, 14:14
C ++ в основном статически напечатан, в соответствии с таковой вики или статически?

Последнее сообщение Anonymous « 16 июл 2025, 17:57
Добавлено в форуме C++

Anonymous » 16 июл 2025, 17:57 » в форуме C++

я узнал и жил с тем фактом, что C ++ - это статически напечатанный язык. Однако тега вики на переполненных состояниях стека (как в его короткой форме, так и в полной форме):

c ++-это (в основном) статически типичный Язык программирования

вот...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
16 июл 2025, 17:57

Вернуться в «Python»

Programmiererforum