Декодирование закодированных URL -адресов Google NewsPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Декодирование закодированных URL -адресов Google News

Сообщение Anonymous »

Я сохранил поиск в https://news.google.com/, но Google не использует фактические ссылки, найденные на своей странице результатов. Скорее, вы найдете такие ссылки, как это: < /p>

https://news.google.com/articles/CBMiUG ... id=US%3Aen
< /code>

Я хочу «реальную ссылку», которая разрешается с помощью Python. Если вы подключите вышеуказанный URL в свой браузер, за долю секунды вы увидите

Открытие https://www.pokernews.com/strategy/wsop-main-event -tips-nine-Champions-31287.htm < /p>

Я попробовал несколько вещей, используя модуль запросов, но «без сигары». < /p>

Если это нельзя сделать, то постоянные ли они Google Links - могут ли они всегда использоваться для открытия веб -страницы? < /p>

Обновление 1: < /p>

После публикации этого вопроса я использовал взлом для решения проблемы. Я просто снова использовал Urllib, чтобы открыть URL Google, а затем проанализировал источник, чтобы найти «настоящий URL». моя программа для бега быстрее. Но Google загадочен, и он не сработал навсегда. >
RESTART: C:\Users\Mike\AppData\Local\Programs\Python\Python36-32\rssFeed1.py
cp1252
cp1252
>>> 1
Tommy Angelo Presents: The Butoff
CBMiTWh0dHBzOi8vd3d3LnBva2VybmV3cy5jb20vc3RyYXRlZ3kvdG9tbXktYW5nZWxvLXByZXNlbnRzLXRoZS1idXRvZmYtMzE4ODEuaHRt0gEA
b'\x08\x13"Mhttps://www.pokernews.com/strategy/tommy-angelo ... d2\x01\x00'
Flopped Set of Nines: Get All In on Flop or Wait?
CBMiXGh0dHBzOi8vd3d3LnBva2VybmV3cy5jb20vc3RyYXRlZ3kvZmxvcHBlZC1zZXQtb2YtbmluZXMtZ2V0LWFsbC1pbi1vbi1mbG9wLW9yLXdhaXQtMzE4ODAuaHRt0gEA
b'\x08\x13"\\https://www.pokernews.com/strategy/flop ... d2\x01\x00'
What Not to Do Online: Don’t Just Stop Thinking and Shove
CBMiZWh0dHBzOi8vd3d3LnBva2VybmV3cy5jb20vc3RyYXRlZ3kvd2hhdC1ub3QtdG8tZG8tb25saW5lLWRvbi10LWp1c3Qtc3RvcC10aGlua2luZy1hbmQtc2hvdmUtMzE4NzAuaHRt0gEA
b'\x08\x13"ehttps://www.pokernews.com/strategy/what-not-to- ... d2\x01\x00'
Hold’em with Holloway, Vol. 77: Joseph Cheong Gets Crazy with a Pair of Ladies
CBMiV2h0dHBzOi8vd3d3LnBva2VybmV3cy5jb20vc3RyYXRlZ3kvaG9sZC1lbS13aXRoLWhvbGxvd2F5LXZvbC03Ny1qb3NlcGgtY2hlb25nLTMxODU4Lmh0bdIBAA
Traceback (most recent call last):
File "C:\Users\Mike\AppData\Local\Programs\Python\Python36-32\rssFeed1.py", line 68, in
GetGoogleNews("https://news.google.com/search?q=site%3 ... id=US%3Aen", 'news')
File "C:\Users\Mike\AppData\Local\Programs\Python\Python36-32\rssFeed1.py", line 34, in GetGoogleNews
real_URL = base64.b64decode(coded)
File "C:\Users\Mike\AppData\Local\Programs\Python\Python36-32\lib\base64.py", line 87, in b64decode
return binascii.a2b_base64(s)
binascii.Error: Incorrect padding
>>>
< /code>

Обновление 2: < /p>

после чтения на Base64 Я думаю Входная строка должна делиться на 4. Поэтому я добавил «AA» в < /p>

CBMiV2h0dHBzOi8vd3d3LnBva2VybmV3cy5jb20vc3RyYXRlZ3kvaG9sZC1lbS13aXRoLWhvbGxvd2F5LXZvbC03Ny1qb3NlcGgtY2hlb25nLTMxODU4Lmh0bdIBAA
< /code>

и не получил сообщение об ошибке: < /p>

>>> t = s + 'aa'
>>> len(t)/4
32.0
>>> base64.b64decode(t)
b'\x08\x13"Whttps://www.pokernews.com/strategy/hold-em-with ... 00\x06\x9a'


Подробнее здесь: https://stackoverflow.com/questions/511 ... -news-urls
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»