Помогите настроить парсер HTML Link Extractor чтобы от главной домена шел внутрь на 3 уровня но сохранял только те ссылки на страницах которых есть формы обратной связи. Список доменов в файле. Посмотрел видео по сбору форм, что-то не работает. Может есть готовый пресет, задача вроде стандартная.
Решается парсером HTML::LinkExtractor + Parse to level + фильтр по нужным признакам в коде страницы. В результат выводите текущий запрос, т.е. $query. Спойлер: Простой пример Код: eJx9VMFu2zAM/ZVC6GEDgiJOmq3wLQ0abENad216SnJQbTrTIkuuJGctAv/7KMmx lK7YRRDJx0dSpHgghuqdvlegwWiSrg6kdneSkgJK2nBDBqSmSoOy5hX5trxdpOmC id3Nq1E0N1IhosceiHmrAb1lbZgUGm2sQNFRLGAPHDV7yhvEjAeEFgWzOMpJeiCc VcxGHpK2DUwl4wZsEEzMxsDMqKEoe8PSoxRU1OS/AjtZN8PL5Ks7L905secocWd+ 5lSFE8bu/iVoEjiLDNSdw4jP3UejiGk0DCGSceT87O5lhOkieLxPwzM9R6BhlNIk cruK3EbJf4vwfEnu/Tw0zuMqKqiIgsblds74qr6f+Kyk3WyOvdBzqfDZUXv+0oB6 W69F3yf9SPewlL6BENRzlO5oZTt0jo0Ea70oHc+nzxfm1Q5cGAsfwI5eCPok2Ivr sDaKiS3ibXAGeq5khWoDjsRldExw1WVIkKZx/j+9D0mNamBANGY7p5hL0RtKyjVa GA4ZxTHPuonGQZViyrmb5gBz9NcN4wV+lWmJTt87x48h2T8cbV9hHGoP6o/CHHoW J11nt8GrkAu5xcKFxLLdJ0JZz2Qj/G8akB1A3T/bnYVVUkEfpmPuouM2qEHYXxu6 Nq2D6qSMk86cKnMpSrbNsADFCjgiG7HElZOJmaxqDrYu0XCOXdHwECZkqrs2WCEk +N555kKcLCsjJdc/Hn2qtWI4gRObYIUvGUftKHPK+dPDIrZYR21knYkbpd61zw2G BeQ4uluJA4VVtZt+R/ab9PDhpkwPuNnIb33v0bY4i0UdvpJ2Hyxp/wKZu9wi
Спасибо, этот принцип понятен. Попробовал сбор, насобирало много не-контактов, карт проезда и т.п.. Вопрос в том, как определить на странице наличие формы обратной связи. За что зацепиться регуляркой. Очень разные формы, код, что найти общего для такой выборки.
Нужно вручную анализировать, искать признаки наличия таких форм, систематизировать их и использовать для более массового поиска. Обычно это какой-то текст на странице, имена классов и наличие тега <form>.