Черные списки в списках Python, при том, чтобы получить данные с веб -страницPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Черные списки в списках Python, при том, чтобы получить данные с веб -страниц

Сообщение Anonymous »

По сути, я создал очень грязный код для захвата ссылок из поисковых запросов Bing.
Проблема, с которой я сталкиваюсь, заключается в том, что я получаю слишком много ссылок, связанных с Бинг.import re, urllib
class MyOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15'
myopener = MyOpener()
dork = raw_input("Dork:")
pagevar = ['1','11','23','34','45','46','47','58','69']
for page in pagevar:
bingdork = "http://www.bing.com/search?q=" + str(dork) + "&first=" + str(page)
bingdork.replace(" ", "+")
links = re.findall('''href=["'](.[^"']+)["']''', myopener.open(bingdork).read(), re.I)
toremove = []
for i in links:
if "bing.com" in i:
toremove.append(i)
elif "wlflag.ico" in i:
toremove.append(i)
elif "/account/web?sh=" in i:
toremove.append(i)
elif "/?FORM" in i:
toremove.append(i)
elif "javascript:void(0);" in i:
toremove.append(i)
elif "javascript:" in i:
toremove.append(i)
elif "go.microsoft.com/fwlink" in i:
toremove.append(i)
elif "g.msn.com" in i:
toremove.append(i)
elif "onlinehelp.microsoft.com" in i:
toremove.append(i)
elif "feedback.discoverbing.com" in i:
toremove.append(i)
elif "/account/web?sh=" in i:
toremove.append(i)
elif "/?scope=web" in i:
toremove.append(i)
elif "/explore?q=" in i:
toremove.append(i)
elif "https://feedback.discoverbing.com" in i:
toremove.append(i)
elif "/images/" in i:
toremove.append(i)
elif "/videos/" in i:
toremove.append(i)
elif "/maps/" in i:
toremove.append(i)
elif "/news/" in i:
toremove.append(i)
for i in toremove:
links.remove(i)
for i in links:
print i
< /code>

Предположим, что я введен:
Dork: cfm id < /p>

Результаты, которые я получу be: < /p>

http://pastebin.com/xi28bzxs

Я хотел бы удалить вещи, такие как: < /p>

/search?q=cfm+id&lf=1&qpvt=cfm+id
/account/web?sh=5&ru=%2fsearch%3fq%3dcfm%2520id%26first%3d69&qpvt=cfm+id
/search?q=cfm+id&rf=1&qpvt=cfm+id
/search?q=cfm+id&first=69&format=rss
/search?q=cfm+id&first=69&format=rss
/?FORM=Z9FD1
javascript:void(0);
/account/general?ru=http%3a%2f%2fwww.bing.com%2fsearch%3fq%3dcfm+id%26first%3d69&FORM=SEFD
/?scope=web&FORM=HDRSC1
/images/search?q=cfm+id&FORM=HDRSC2
/videos/search?q=cfm+id&FORM=HDRSC3
< /code>

По сути, мне нужен фильтр, который позволяет мне получить только действительные ссылки из Bing, и удаляет все дерьмо со стороны Bings.>

Подробнее здесь: https://stackoverflow.com/questions/125 ... m-webpages
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»