АПну тему)
Полностью согласен с Support - в применении а-парсера мы ограничены только собственной фантазией и ленью. Хотя… после приобретения софта лени во мне только прибавилось))
Один из моих способов применения – парсинг контента с дропов и создание на этом контенте тематических сайтов – теме уже куча лет, но до сих пор живет и хорошо себя чувствует.
Домены я не чекаю на валидность, а банально беру списки от регистраторов, которые младше 2015года (свежее базы использовать нет смысла, т.к. домены еще не успели проэкспайрится) и сравниваю с сегодняшними списками.
К примеру, если сравнить файлы за апрель 2014 и за 14.04.2017 по зоне .com
то на выходе получаем список из более чем 40млн уже удалённых доменов
Раньше использовал Rank::Archive для выявления есть ли сохраненные страницы в archive.org, но последнее время со всем справляется Net::HTTP
Далее определяю язык сайта - в этом мне помогает HTML::TextExtractor::LangDetect
Остается распарсить подходящие домены и пройтись по всем ссылкам для парсинга title & keywords с помощью Net::HTTP
Собственно, всё. Теперь, когда соберусь делать очередной сайт на любую тему, мне не составит труда сделать выборку и найти для него хороший контент на несколько месяцев вперед.
Возможно сумбурно написал, но, думаю, смысл понятен)
Полностью согласен с Support - в применении а-парсера мы ограничены только собственной фантазией и ленью. Хотя… после приобретения софта лени во мне только прибавилось))
Один из моих способов применения – парсинг контента с дропов и создание на этом контенте тематических сайтов – теме уже куча лет, но до сих пор живет и хорошо себя чувствует.
Домены я не чекаю на валидность, а банально беру списки от регистраторов, которые младше 2015года (свежее базы использовать нет смысла, т.к. домены еще не успели проэкспайрится) и сравниваю с сегодняшними списками.
К примеру, если сравнить файлы за апрель 2014 и за 14.04.2017 по зоне .com
Код:
diff --speed-large-files old.com.txt new.com.txt | grep -E "^<" | sed -e "s/^< //g" > del.com.txt
Раньше использовал Rank::Archive для выявления есть ли сохраненные страницы в archive.org, но последнее время со всем справляется Net::HTTP
Далее определяю язык сайта - в этом мне помогает HTML::TextExtractor::LangDetect
Остается распарсить подходящие домены и пройтись по всем ссылкам для парсинга title & keywords с помощью Net::HTTP
Собственно, всё. Теперь, когда соберусь делать очередной сайт на любую тему, мне не составит труда сделать выборку и найти для него хороший контент на несколько месяцев вперед.
Возможно сумбурно написал, но, думаю, смысл понятен)