Почему Python возвращает пустой массив при извлечении метаописания из URL-адресов?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Почему Python возвращает пустой массив при извлечении метаописания из URL-адресов?

Сообщение Anonymous »

Я пытаюсь извлечь метаописание с помощью goose. Я написал следующий код. Я также рассмотрел обработку файлов cookie. Когда я тестирую, используя только один URL-адрес, это работает. Однако, когда я перебираю массив URL-адресов, получается пустой массив, когда я использую следующий код для извлечения метаописания.

os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling")
data = pandas.read_csv('activity_url.csv', delimiter=';')
x="https"
url_data=np.array(data[(data.iloc[:,2]==1) & (data.iloc[:,1].str.contains(x))])[:,1]

#remove '~oref='

clean_url_data=[urlparse.urlparse(i)[2].split("=")[1] for i in url_data]

g=goose.Goose()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) #for websites with cookie handling

website_meta_description=[g.extract(raw_html=(opener.open(urlw)).read()).meta_description for urlw in clean_url_data]

print website_meta_description


Подробнее здесь: https://stackoverflow.com/questions/380 ... -from-urls
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»