Парсер состоит из 2-х пресетов, работает по цепочке.
1 Этап
Сбор внутренних ссылок при помощи парсера HTML::LinkExtractor:
- страницы контактов
- если страницы контактов по указанным признакам нет, то ищем страницу Privacy Policy
- страницы Privacy Policy
- страницы Terms of use \ Terms of Service
Парсинг данных:
- Домен
- Email со страницы контактов или Privacy Policy, если нет страницы контактов
- ссылка на страницу контактов
- Соц сети (facebook или twitter)
- ссылка на страницу Terms of use \ Terms of Service
- Email со страницы Terms of use \ Terms of Service
- ссылка на страницу Privacy Policy
- Email со страницы Privacy Policy
Код:
https://blog.luckyorange.com/
https://www.sandstonecastles.co.uk
https://vettedopps.com
https://corepro8.com/blogs
https://www.one-resource.com
https://thehomebusinessowner.com
Пример результата:
Код:
URL,Email,Contact Forms,Social media,Term page,term email,Privacy policy page,privacy policy email
https://www.one-resource.com,,https://www.one-resource.com/contact-us/,https://www.facebook.com/OneResourcePA,,,https://www.one-resource.com/privacy-policy/,
https://www.sandstonecastles.co.uk,,https://www.sandstonecastles.co.uk/contact/,https://twitter.com/ssc_marketing,,,https://www.sandstonecastles.co.uk/privacy-cookie-policy/,[email protected]
https://thehomebusinessowner.com,[email protected],https://thehomebusinessowner.com/contact/,https://twitter.com/Elizabethucheal,,,https://thehomebusinessowner.com/privacy-policy/,[email protected]
https://blog.luckyorange.com/,,,https://twitter.com/luckyorange,https://www.luckyorange.com/legal/terms,,https://www.luckyorange.com/legal/privacy-policy,