Вопрос по работе Chrome Headless

Gorn

A-Parser Enterprise License
A-Parser Enterprise
Думаю - как ускорить работу Chrome Headless при парсинге с его помощью.

Есть идея - перед отдачей html кода в Chrome Headless вырезать из него ненужные JS скрипты и CSS стили (или еще что-то ненужное), это будет определяться опытным путём.

Теоретически это должно уменьшит потребление ОЗУ и ЦП Chrome Headless и парсинг пойдет быстрее.

Вопрос - можно ли это сделать и как сделать?
И стоит ли пытаться сделать )))) ?
 
Если требуется, то вы можете вырезать из полученных данных все что угодно, используя Конструктор результатов или соответствующие JS методы.
 
Вы не поняли моего вопроса, для чего я хочу это сделать...:(
Я предлагаю вырезать ДО ПЕРЕДАЧИ ДАННЫХ В БРОУЗЕР!!!
Возможно это или нет?
Может в далеких планах сделаете?
Это же существенно облегчит работу Chrome Headless и значит УСКОРИТ парсинг !!!
 
Я предлагаю вырезать ДО ПЕРЕДАЧИ ДАННЫХ В БРОУЗЕР!!!
Страница рендерится в браузере, о передаче чего и куда речь? Если нужно получать html до рендеринга - используйте Engine=HTTP, если после рендеринга, но с вырезанными какими-либо данными - то вырезайте как указано во 2-м сообщении.
 
Вырезать стили и ненужные js ДО передачи на рендеринг, чтобы облегчить (и ускорить) работу браузера, которому не нужно будет отрабатывать вырезанное. Конечно надо очень хорошо проверить, что вырезать, а что - нет.
Наверное это проще сделать не А-Parser'ом, а каким-то своим прокси софтом,, через который будет идти весь трафик и в котором настроить правила вырезания...
 
Назад
Верх