Добрый день. Подскажите новичку как это правильно организовать? Видел подобные решения. Но мне показалось что они мне не подойдут. Ну по крайней мере не все решения. У меня есть список сайтов, но только главных страниц, как мне правильно задать чтобы искал мейл на странице контакты или о нас и т.д. Просто если по регуллярке собирать, то мейл может быть и на главной странице в контенте, а мне нужен только со страницы с контактами. Спасибо
Спасибо за ответ. Но там простой парс в гугле всех страниц где есть контакты. У меня уже есть список сайтов с которых нужно взять мейл. вот проблема как на заданом сайте найти эту страницу?У кого-то она contacs или aboutus или еще как то там?
ну были такие мысли у меня. Мне надо будет глубину прохода установить как 1? Чтобы пройтись только по всем ссылкам с заданой страницы? А нельзя будет еще к этому действию добавить еще чтобы искало мейл по регулярке? А то будет очень долго это все в два этапа делать. Видел есть функция use pages, где можно ходить по сайту. Думал через нее, но она почему то не появляется. Хотя раньше пробовал ее и запускалась.
можно, все в один проход получится: сразу парсим $data регуляркой эта функция есть, но она создана для других целей. чтобы просто пройтись вглубь по сайту необходимо использовать опцию Parse to level
Спасибо за ответ. Получилось все сделать в одном проходе. Но в таком случае будут собраны все мейлы, даже если он просто указаны в контенте. Как мне выделить только контактный? Сайтов много всяких. У кого это отдельная страница, у кого просто в футере указан. Что то не могу придумать как это обойти...
дополнительно фильтровать по содержимому - например $data Regex match <title>[^<]*?(?:контакты|связь), либо по ссылке - $query Regex match contant|about и т.п.
А куда это подставить? Вот мой пример И еще вопрос, а можно результат записывать в 2 файла? например парс 1 в 1-й файл, а результат 2-го в другой? Т.к. результат первого в будущем надо будет.
С этим решил, просто добавил еще один результат и в параметре указал результат парса 1. А вот с фильтром по контактам пока нет((. Подскажите, куда и как правильно сделать запись.
Что-то не сработало у меня + у меня не $data - Content data, a Raw data. Можете скинуть пресет готовый ? Спасибо.
Спойлер: Код пресета Код: eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6 TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIs InJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IigoPz5cXGJbLWEtejAtOS5fJStdKylA W2EtejAtOS4tXStcXC5bYS16XXsyLDZ9KVxcYiIsInJlZ2V4VHlwZSI6ImlnIiwi cmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoibWFpbHMiLCJyZXN1bHRz IjpbIm1haWwiXX0seyJ0eXBlIjoidW5pcXVlIiwicmVzdWx0IjpbIm1haWxzIiwi bWFpbCJdLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwidW5pcXVlR2xvYmFsIjp0cnVl fSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjF9 LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImFuY2hv ciJdLCJmaWx0ZXJUeXBlIjoicmVtYXRjaCIsInZhbHVlIjoiXHUwNDQxXHUwNDMy XHUwNDRmXHUwNDM3XHUwNDRjfFx1MDQzYVx1MDQzZVx1MDQzZFx1MDQ0Mlx1MDQz MFx1MDQzYVx1MDQ0Mlx1MDQ0YnxcdTA0M2ZcdTA0M2VcdTA0MzRcdTA0MzRcdTA0 MzVcdTA0NDBcdTA0MzZcdTA0M2FcdTA0MzAiLCJvcHRpb24iOiJpIn1dXSwicmVz dWx0c0Zvcm1hdCI6IiRwMS5tYWlscy5mb3JtYXQoJyRxdWVyeXwkbWFpbFxcbicp IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJEZWMt MTdfMTAtNDgtNDMudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRz VW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl cmllcyI6dHJ1ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9w dGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3Vs dHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbIm1haWxzIiwibWFpbCJdXSwidHlw ZSI6ImxjIiwiYXJyYXkiOiJtYWlscyIsInRvIjoibWFpbCJ9XSwiY29uZmlnT3Zl cnJpZGVzIjpbXX19 обновись на последнюю версию