Я пытаюсь извлечь метаописание с помощью goose. Я написал следующий код. Я также рассмотрел обработку файлов cookie. Когда я тестирую, используя только один URL-адрес, это работает. Однако, когда я перебираю массив URL-адресов, получается пустой массив, когда я использую следующий код для извлечения метаописания.
os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling")
data = pandas.read_csv('activity_url.csv', delimiter=';')
x="https"
url_data=np.array(data[(data.iloc[:,2]==1) & (data.iloc[:,1].str.contains(x))])[:,1]
#remove '~oref='
clean_url_data=[urlparse.urlparse(i)[2].split("=")[1] for i in url_data]
g=goose.Goose()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) #for websites with cookie handling
website_meta_description=[g.extract(raw_html=(opener.open(urlw)).read()).meta_description for urlw in clean_url_data]
print website_meta_description
Подробнее здесь: https://stackoverflow.com/questions/380 ... -from-urls
Почему Python возвращает пустой массив при извлечении метаописания из URL-адресов? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как перенаправить одну структуру URL-адресов на другую структуру URL-адресов?
Anonymous » » в форуме Php - 0 Ответы
- 132 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как перенаправить одну структуру URL-адресов на другую структуру URL-адресов?
Anonymous » » в форуме Apache - 0 Ответы
- 154 Просмотры
-
Последнее сообщение Anonymous
-
Мобильная версия