Anonymous
Извлечение переменных Javascript из очищенной HTML-страницы с помощью PHP (Regex)
Сообщение
Anonymous » 05 авг 2024, 11:09
Я пытаюсь извлечь переменные Javascript из дампа HTML очищенной веб-страницы.
В настоящее время использую это регулярное выражение
Код: Выделить всё
$re = '/window\.universal_variable\s*=\s*\{(.*?)\}/ms';
но он показывает только первый набор значений. По сути, я пытаюсь получить все переменные и значения, относящиеся к продукту (например, id, product_id, sku и т. д.)
Код: Выделить всё
window.universal_variable = {
page: {
category: "product" ,
searchTerm: "sony",
environment: "production",
variation: "production",
revision: "1.1"
},
user: {
otb: "",
ATG_FO_IND: "A",\t
ooops_preference: "false",
registered_today: false,
registration_date: "",
registered_in_current_session: false,\tidv_verified: true,
last_order_date: "",
start_date: "",
first_order: false,\treturning: false,
last_transaction_payment_type: "",
unicaSegment: "",
targetedPromos :"",
cva:"0",
cvb:"1",
cvc:""
}// end of user\t
,\t
product:{
id: "KEN6C",
product_id: "prod1086433641",
sku: "KEN6C",
manufacturer: "",
category: "Televisions",
category_facet: "4740",
department: "Electricals",
subcategory: "electricals_televisions",
currency: "GBP",
unit_price: "",
unit_sale_price: "319.0",
rating: "4.3",
ratingCount: "2048"
}// end of product
}// end of window.universal_variable\t
window.sdgGA = {
environment: "production",
device: "desktop",
userAgent: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36",
currency: "GBP",
page: {
PID: "test : PRODUCT",
loggedInState: "not logged in",
category:"product",
customerStatus: "new"
},
Есть предложения?
Подробнее здесь:
https://stackoverflow.com/questions/656 ... -php-regex
1722845350
Anonymous
Я пытаюсь извлечь переменные Javascript из дампа HTML очищенной веб-страницы. В настоящее время использую это регулярное выражение [code] $re = '/window\.universal_variable\s*=\s*\{(.*?)\}/ms'; [/code] но он показывает только первый набор значений. По сути, я пытаюсь получить все переменные и значения, относящиеся к продукту (например, id, product_id, sku и т. д.) [code] window.universal_variable = { page: { category: "product" , searchTerm: "sony", environment: "production", variation: "production", revision: "1.1" }, user: { otb: "", ATG_FO_IND: "A",\t ooops_preference: "false", registered_today: false, registration_date: "", registered_in_current_session: false,\tidv_verified: true, last_order_date: "", start_date: "", first_order: false,\treturning: false, last_transaction_payment_type: "", unicaSegment: "", targetedPromos :"", cva:"0", cvb:"1", cvc:"" }// end of user\t ,\t product:{ id: "KEN6C", product_id: "prod1086433641", sku: "KEN6C", manufacturer: "", category: "Televisions", category_facet: "4740", department: "Electricals", subcategory: "electricals_televisions", currency: "GBP", unit_price: "", unit_sale_price: "319.0", rating: "4.3", ratingCount: "2048" }// end of product }// end of window.universal_variable\t window.sdgGA = { environment: "production", device: "desktop", userAgent: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36", currency: "GBP", page: { PID: "test : PRODUCT", loggedInState: "not logged in", category:"product", customerStatus: "new" }, [/code] Есть предложения? Подробнее здесь: [url]https://stackoverflow.com/questions/65635982/extract-javascript-variables-from-scraped-html-page-using-php-regex[/url]