Недостающая информация при парсинге веб-страниц

Недостающая информация при парсинге веб-страниц ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Недостающая информация при парсинге веб-страниц

Цитата

Сообщение Anonymous » 03 авг 2024, 23:08

Я хочу попробовать разделить свои музыкальные файлы на папки по жанрам и для удобства пишу код на C#. Нужная мне информация находится в этом классе div HTML-кода страницы Google "xGj8Mb", но, используя стандартный метод C#, а также библиотеку AngleSharp, я не могу получить доступ к этой информации, и она не сохраняет много другой информации. Я переписал тот же код на Java, используя библиотеку Jsoup, и он берет всю информацию со страницы. Ниже я привожу код, который использовал для этого эксперимента, используя AngleSharp и стандартный метод.
Код, используя стандартный метод

Код: Выделить всё

public class Program {
private static async Task Main(string[] args) {
const string folderPath = @"C:\Users\chris\Desktop\Attilio\ATTILIO MUSIC";
if (!Directory.Exists(folderPath)) {
Console.Error.WriteLine("DOES NOT EXIST");
return;
}

var archive = Directory.GetFiles(folderPath);
foreach (var entry in archive) {
// Check if the file is not a directory and has the .mp3 or .wav extension
var fileName = entry.Split(folderPath + @"\")[1];
//Console.WriteLine(fileName);

SearchOnInternet(fileName);
return;
}

Console.WriteLine($"Number: {archive.Length}");
}

private static void SearchOnInternet(string fileName) {
// Split to remove the extension from the file name
if (fileName.EndsWith(".mp3"))
fileName = fileName.Split(".mp3")[0];
else if (fileName.EndsWith(".wav"))
fileName = fileName.Split(".wav")[0];

// Conversion for the search
var fileNameAsUrl = Uri.EscapeDataString(fileName);
Console.WriteLine(fileNameAsUrl);
var url =
$"https://www.google.com/search?q={fileNameAsUrl}";

// Search
using (var client = new HttpClient()) {
var response = client.GetAsync(url);
if (response.Result.IsSuccessStatusCode) {
var responseBody = response.Result.Content.ReadAsStringAsync();

// Save page
var outputPath = @"C:\Users\chris\Documents\Universita\Programmi\C#\FileAura\FileAuraServer\Search";
if (!Directory.Exists(outputPath))
Directory.CreateDirectory(outputPath);
File.WriteAllText(
@$"{outputPath}\{fileName}.html",
responseBody.Result);
}
}
}

Код с использованием AngleSharp

Код: Выделить всё

private static async void SearchOnInternet(string fileName) {
// Split to remove the extension from the file name
if (fileName.EndsWith(".mp3"))
fileName = fileName.Split(".mp3")[0];
else if (fileName.EndsWith(".wav"))
fileName = fileName.Split(".wav")[0];

// Conversion for the search
var fileNameAsUrl = Uri.EscapeDataString(fileName);
var googleSearchUrl =
$"https://www.google.com/search?q={fileNameAsUrl}";

// Create an HttpClient to send the request
using var httpClient = new HttpClient();

// Send a GET request to Google
var response = await httpClient.GetAsync(googleSearchUrl);

// Ensure the request was successful
response.EnsureSuccessStatusCode();

// Get the response content as a string
var responseContent = await response.Content.ReadAsStringAsync();

// Save the HTML content to a file
string filePath = "output.html";
await File.WriteAllTextAsync(filePath, responseContent);

Console.WriteLine($"The HTML content has been saved to {filePath}");

// Configure AngleSharp to parse the HTML
var context = BrowsingContext.New(Configuration.Default);
var parser = context.GetService();
var document = await parser.ParseDocumentAsync(responseContent);

// Example: extract the title of the search results page
var title = document.Title;
Console.WriteLine("Title: " + title);

// Example: extract the search results
var results = document.QuerySelectorAll("h3"); //  elements contain the titles of the search results

foreach (var result in results)
{
Console.WriteLine(result.TextContent);
}
}

Это страница, которая мне нужна

Это страница, которую я получаю из этого кода
[img]https:// i.sstatic.net/lGkljBH9.jpg[/img]

Подробнее здесь: https://stackoverflow.com/questions/788 ... b-scraping

1722715691

Anonymous

Я хочу попробовать разделить свои музыкальные файлы на папки по жанрам и для удобства пишу код на C#. Нужная мне информация находится в этом классе div HTML-кода страницы Google "xGj8Mb", но, используя стандартный метод C#, а также библиотеку AngleSharp, я не могу получить доступ к этой информации, и она не сохраняет много другой информации. Я переписал тот же код на Java, используя библиотеку Jsoup, и он берет всю информацию со страницы.  Ниже я привожу код, который использовал для этого эксперимента, используя AngleSharp и стандартный метод.
[b]Код, используя стандартный метод[/b]
[code]public class Program {
private static async Task Main(string[] args) {
const string folderPath = @"C:\Users\chris\Desktop\Attilio\ATTILIO MUSIC";
if (!Directory.Exists(folderPath)) {
Console.Error.WriteLine("DOES NOT EXIST");
return;
}

var archive = Directory.GetFiles(folderPath);
foreach (var entry in archive) {
// Check if the file is not a directory and has the .mp3 or .wav extension
var fileName = entry.Split(folderPath + @"\")[1];
//Console.WriteLine(fileName);

SearchOnInternet(fileName);
return;
}

Console.WriteLine($"Number: {archive.Length}");
}

private static void SearchOnInternet(string fileName) {
// Split to remove the extension from the file name
if (fileName.EndsWith(".mp3"))
fileName = fileName.Split(".mp3")[0];
else if (fileName.EndsWith(".wav"))
fileName = fileName.Split(".wav")[0];

// Conversion for the search
var fileNameAsUrl = Uri.EscapeDataString(fileName);
Console.WriteLine(fileNameAsUrl);
var url =
$"https://www.google.com/search?q={fileNameAsUrl}";

// Search
using (var client = new HttpClient()) {
var response = client.GetAsync(url);
if (response.Result.IsSuccessStatusCode) {
var responseBody = response.Result.Content.ReadAsStringAsync();

// Save page
var outputPath = @"C:\Users\chris\Documents\Universita\Programmi\C#\FileAura\FileAuraServer\Search";
if (!Directory.Exists(outputPath))
Directory.CreateDirectory(outputPath);
File.WriteAllText(
@$"{outputPath}\{fileName}.html",
responseBody.Result);
}
}
}
[/code]

[b]Код с использованием AngleSharp[/b]
[code]private static async void SearchOnInternet(string fileName) {
// Split to remove the extension from the file name
if (fileName.EndsWith(".mp3"))
fileName = fileName.Split(".mp3")[0];
else if (fileName.EndsWith(".wav"))
fileName = fileName.Split(".wav")[0];

// Conversion for the search
var fileNameAsUrl = Uri.EscapeDataString(fileName);
var googleSearchUrl =
$"https://www.google.com/search?q={fileNameAsUrl}";

// Create an HttpClient to send the request
using var httpClient = new HttpClient();

// Send a GET request to Google
var response = await httpClient.GetAsync(googleSearchUrl);

// Ensure the request was successful
response.EnsureSuccessStatusCode();

// Get the response content as a string
var responseContent = await response.Content.ReadAsStringAsync();

// Save the HTML content to a file
string filePath = "output.html";
await File.WriteAllTextAsync(filePath, responseContent);

Console.WriteLine($"The HTML content has been saved to {filePath}");

// Configure AngleSharp to parse the HTML
var context = BrowsingContext.New(Configuration.Default);
var parser = context.GetService();
var document = await parser.ParseDocumentAsync(responseContent);

// Example: extract the title of the search results page
var title = document.Title;
Console.WriteLine("Title: " + title);

// Example: extract the search results
var results = document.QuerySelectorAll("h3"); //  elements contain the titles of the search results

foreach (var result in results)
{
Console.WriteLine(result.TextContent);
}
}
[/code]
Это страница, которая мне нужна
[img]https://i.sstatic.net/26XTqAPM.jpg[/img]

Это страница, которую я получаю из этого кода
[img]https:// i.sstatic.net/lGkljBH9.jpg[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78828327/missing-information-with-web-scraping[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Недостающая информация при парсинге веб-страниц

Последнее сообщение Anonymous « 03 авг 2024, 12:24
Добавлено в форуме C#

Anonymous » 03 авг 2024, 12:24 » в форуме C#

Я хочу попробовать разделить свои музыкальные файлы на папки по жанрам и для удобства пишу код на C#. Нужная мне информация находится в этом классе div HTML-кода страницы Google xGj8Mb , но, используя стандартный метод C#, а также библиотеку...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
03 авг 2024, 12:24
Учебное пособие по NATS Python — недостающая информация в официальной документации

Последнее сообщение Anonymous « 14 май 2024, 22:50
Добавлено в форуме Python

Anonymous » 14 май 2024, 22:50 » в форуме Python

Я следую этому руководству по NAT. Документы кажутся довольно старыми, но я думаю, что никаких изменений может и не быть.

Итак, благодаря этому я создал кластер из 3 узлов и запустил его с помощью docker-compose. Есть примечание, в котором...

0 Ответы

69 Просмотры

Последнее сообщение Anonymous
14 май 2024, 22:50
Учебное пособие по NATS Python — недостающая информация в официальной документации

Последнее сообщение Anonymous « 14 май 2024, 23:19
Добавлено в форуме Python

Anonymous » 14 май 2024, 23:19 » в форуме Python

Я следую этому руководству по NAT. Документы кажутся довольно старыми, но я думаю, что никаких изменений может и не быть.

Итак, благодаря этому я создал кластер из 3 узлов и запустил его с помощью docker-compose. Есть примечание, в котором...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
14 май 2024, 23:19
AttributeError при парсинге веб-страниц

Последнее сообщение Anonymous « 30 июн 2024, 16:50
Добавлено в форуме Python

Anonymous » 30 июн 2024, 16:50 » в форуме Python

import requests
from bs4 import BeautifulSoup
import csv

url =
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

data = []
for tag in soup.find_all( ):
if tag.name == 'div' and len(tag.find_all('table')) > 0:
for...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
30 июн 2024, 16:50
Что делает функция синтаксического анализа при парсинге веб-страниц?

Последнее сообщение Anonymous « 24 сен 2024, 14:09
Добавлено в форуме Python

Anonymous » 24 сен 2024, 14:09 » в форуме Python

Итак, в настоящее время я пытаюсь парсить веб-страницы, но я все еще новичок в этом. Я знаю, что это глупый вопрос, но что делает «функция анализа»? Для справки я предоставил блок кода ниже:
def parse(self, response):
items = []
for item in...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 14:09

Вернуться в «C#»