Спарсить все .com домены

Валерий

A-Parser Enterprise License
A-Parser Enterprise
Есть нетривиальная задача собрать все .com домены, каким образом это можно осуществить?
 
Довольно просто, правда не факт, что будут абсолютно все существующие (а их более 120М)... Задаем парсинг Гугла по запросу site:.com размножив запросы функцией Parse all results:
qIdFq.png

Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvcHRp
b25zIiwiaWQiOiJwYXJzZUFsbCIsInZhbHVlIjp0cnVlfSx7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoicHJveHlyZXRyaWVzIiwidmFsdWUiOiIxMDAifSx7InR5cGUi
OiJvdmVycmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjEwfV1dLCJyZXN1
bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwi
cmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJ5
Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZh
aWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZl
bHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1
ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6
eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
cyI6W3sic291cmNlIjpbMCxbInNlcnAiLCJsaW5rIl1dLCJ0eXBlIjoiZXh0cmFj
dDJuZERvbWFpbiIsImFycmF5Ijoic2VycCIsInRvIjoibGluayJ9XSwiY29uZmln
T3ZlcnJpZGVzIjpbXX19
В результате получаем список доменов в зоне .com, без повторов. Можно добавить парсеры других поисковиков, но это врятли сильно увеличит результат, а вот время увеличит существенно.
 
Погугли
все домены можно достать бесплатно
 
спасибо за файлик
инфа для всех: по составу там много сабдоменов блогспота и прочих фрихостов, а также встречаются другие доменные зоны
то есть над базой еще прийдется потрудится чтобы очистить
 
Назад
Верх