Парс мейлов.

bOOOmERok

New Member
Добрый день. Подскажите новичку как это правильно организовать?
Видел подобные решения. Но мне показалось что они мне не подойдут. Ну по крайней мере не все решения.
У меня есть список сайтов, но только главных страниц, как мне правильно задать чтобы искал мейл на странице контакты или о нас и т.д. Просто если по регуллярке собирать, то мейл может быть и на главной странице в контенте, а мне нужен только со страницы с контактами.
Спасибо
 
Спасибо за ответ.

Но там простой парс в гугле всех страниц где есть контакты. У меня уже есть список сайтов с которых нужно взять мейл. вот проблема как на заданом сайте найти эту страницу?У кого-то она contacs или aboutus или еще как то там?
 
ну были такие мысли у меня. Мне надо будет глубину прохода установить как 1? Чтобы пройтись только по всем ссылкам с заданой страницы?

А нельзя будет еще к этому действию добавить еще чтобы искало мейл по регулярке? А то будет очень долго это все в два этапа делать.

Видел есть функция use pages, где можно ходить по сайту. Думал через нее, но она почему то не появляется. Хотя раньше пробовал ее и запускалась.
 
А нельзя будет еще к этому действию добавить еще чтобы искало мейл по регулярке? А то будет очень долго это все в два этапа делать.

можно, все в один проход получится: сразу парсим $data регуляркой

Видел есть функция use pages, где можно ходить по сайту. Думал через нее, но она почему то не появляется. Хотя раньше пробовал ее и запускалась.

эта функция есть, но она создана для других целей. чтобы просто пройтись вглубь по сайту необходимо использовать опцию Parse to level
 
Спасибо за ответ.

Получилось все сделать в одном проходе. Но в таком случае будут собраны все мейлы, даже если он просто указаны в контенте. Как мне выделить только контактный? Сайтов много всяких. У кого это отдельная страница, у кого просто в футере указан.
Что то не могу придумать как это обойти...
 
дополнительно фильтровать по содержимому - например $data Regex match <title>[^<]*?(?:контакты|связь), либо по ссылке - $query Regex match contant|about и т.п.
 
А куда это подставить?

Вот мой пример
aparser.jpg

И еще вопрос, а можно результат записывать в 2 файла? например парс 1 в 1-й файл, а результат 2-го в другой? Т.к. результат первого в будущем надо будет.
 
Последнее редактирование:
И еще вопрос, а можно результат записывать в 2 файла? например парс 1 в 1-й файл, а результат 2-го в другой? Т.к. результат первого в будущем надо будет.

С этим решил, просто добавил еще один результат и в параметре указал результат парса 1.

А вот с фильтром по контактам пока нет((. Подскажите, куда и как правильно сделать запись.
 
wazSq.png


вот пример с фильтрации ссылок по которым переходим по анкору
 
Что-то не сработало у меня + у меня не $data - Content data, a Raw data.
Можете скинуть пресет готовый ? Спасибо.

17ac778a59f68553251245c7d642819a.png
 
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicGFyc2VycyI6W1siSFRNTDo6
TGlua0V4dHJhY3RvciIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIs
InJlc3VsdCI6ImRhdGEiLCJyZWdleCI6IigoPz5cXGJbLWEtejAtOS5fJStdKylA
W2EtejAtOS4tXStcXC5bYS16XXsyLDZ9KVxcYiIsInJlZ2V4VHlwZSI6ImlnIiwi
cmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoibWFpbHMiLCJyZXN1bHRz
IjpbIm1haWwiXX0seyJ0eXBlIjoidW5pcXVlIiwicmVzdWx0IjpbIm1haWxzIiwi
bWFpbCJdLCJ1bmlxdWVUeXBlIjoic3RyaW5nIiwidW5pcXVlR2xvYmFsIjp0cnVl
fSx7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJzZUxldmVsIiwidmFsdWUiOjF9
LHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJmb2xsb3dsaW5rcyIsImFuY2hv
ciJdLCJmaWx0ZXJUeXBlIjoicmVtYXRjaCIsInZhbHVlIjoiXHUwNDQxXHUwNDMy
XHUwNDRmXHUwNDM3XHUwNDRjfFx1MDQzYVx1MDQzZVx1MDQzZFx1MDQ0Mlx1MDQz
MFx1MDQzYVx1MDQ0Mlx1MDQ0YnxcdTA0M2ZcdTA0M2VcdTA0MzRcdTA0MzRcdTA0
MzVcdTA0NDBcdTA0MzZcdTA0M2FcdTA0MzAiLCJvcHRpb24iOiJpIn1dXSwicmVz
dWx0c0Zvcm1hdCI6IiRwMS5tYWlscy5mb3JtYXQoJyRxdWVyeXwkbWFpbFxcbicp
IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJEZWMt
MTdfMTAtNDgtNDMudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRz
VW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl
cmllcyI6dHJ1ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9w
dGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBV
bmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQi
OiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3Vs
dHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbIm1haWxzIiwibWFpbCJdXSwidHlw
ZSI6ImxjIiwiYXJyYXkiOiJtYWlscyIsInRvIjoibWFpbCJ9XSwiY29uZmlnT3Zl
cnJpZGVzIjpbXX19

Что-то не сработало у меня + у меня не $data - Content data, a Raw data.

обновись на последнюю версию
 
Назад
Верх