Подсказки disconnect.me

Пресет Парсер search.disconnect.me или альтернатива inurl Google 1.0

Доступно владельцам лицензии
  • Автор темы Автор темы Support
  • Дата начала Дата начала

Support

Administrator
Команда форума
A-Parser Enterprise
В последнее время часто стали поступать жалобы на плохой парсинг Гугла с использованием поисковых операторов. И действительно, Гугл начал еще жестче банить частые запросы с использованием операторов inurl, site и т.п.
Но благодаря этому посту от Master появилась идея парсить Гугл через сервис disconnect.me.
6VNYu.png

Код:
eyJwcmVzZXQiOiJzZWFyY2guZGlzY29ubmVjdC5tZSIsInZhbHVlIjp7InByZXNl
dCI6InNlYXJjaC5kaXNjb25uZWN0Lm1lIiwicGFyc2VycyI6W1siTmV0OjpIVFRQ
IiwiZGVmYXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwi
dmFsdWUiOjIwMH0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5Zm9ybWF0
IiwidmFsdWUiOiJodHRwczovL3NlYXJjaC5kaXNjb25uZWN0Lm1lL3NlYXJjaFRl
cm1zL3NlYXJjaD9zdGFydD1uYXYmb3B0aW9uPVdlYiZxdWVyeT0kcXVlcnkmc2Vz
PUdvb2dsZSZsb2NhdGlvbl9vcHRpb249UlUmbmV4dERERz0lMkZzZWFyY2glM0Zx
JTNEJTI2bmV3d2luZG93JTNEMSUyNmhsJTNEcnUlMjZzdGFydCUzRCRwYWdlbnVt
JTI2c2ElM0ROJnNob3dJY29ucz1mYWxzZSZmaWx0ZXJJY29ucz1ub25lJmpzX2Vu
YWJsZWQ9MCZzb3VyY2U9Tm9uZSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJm
b3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRzZXJwLmZvcm1hdCgnJGxpbmtcXG4nKSJ9
LHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6WyJwYWdlcyIsImRhdGEi
XSwicmVnZXgiOiI8dWwgaWQ9XCJub3JtYWwtcmVzdWx0c1wiKC4rPyk8XFwvdWw+
IiwicmVnZXhUeXBlIjoicyIsInJlc3VsdFR5cGUiOiJhcnJheSIsImFycmF5TmFt
ZSI6InNlcnBkYXRhIiwicmVzdWx0cyI6WyJkYXRhIl19LHsidHlwZSI6ImN1c3Rv
bVJlc3VsdCIsInJlc3VsdCI6WyJzZXJwZGF0YSIsImRhdGEiXSwicmVnZXgiOiI8
bGk+Lis/PGEgaHJlZj1cIiguKz8pXCIuKz8+KC4rPyk8Lis/PHA+KC4rPyk8Iiwi
cmVnZXhUeXBlIjoic2ciLCJyZXN1bHRUeXBlIjoiYXJyYXkiLCJhcnJheU5hbWUi
OiJzZXJwIiwicmVzdWx0cyI6WyJsaW5rIiwiYW5jaG9yIiwic25pcHBldCJdfSx7
InR5cGUiOiJvcHRpb25zIiwiaWQiOiJ1c2VQYWdlcyIsInZhbHVlIjoiMCIsImFk
ZGl0aW9uYWwiOnsicGFnZXNTdGVwIjoiMTAiLCJwYWdlY291bnQiOiI1In19LHsi
dHlwZSI6Im9wdGlvbnMiLCJpZCI6ImNoZWNrTmV4dFBhZ2UiLCJ2YWx1ZSI6Ijxk
aXYgY2xhc3M9XCJwYWdpbmF0aW9uXCI+XFxzKi4rPGEgaHJlZj0nLis/JyBkYXRh
LWluc3RhbnQ+Lis/PFxcL2E+XFxzKjxcXC9kaXY+In1dXSwicmVzdWx0c0Zvcm1h
dCI6IiRwMS5wcmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNG
aWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9y
bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRx
dWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMi
OmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJx
dWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9u
cyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJkYiIsImtlZXBVbmlxdWUi
OiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJy
ZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWls
ZGVycyI6W3sic291cmNlIjpbMCxbInNlcnAiLCJhbmNob3IiXV0sInR5cGUiOiJk
ZWNvZGVIdG1sIiwiYXJyYXkiOiJzZXJwIiwidG8iOiJhbmNob3IifSx7InNvdXJj
ZSI6WzAsWyJzZXJwIiwic25pcHBldCJdXSwidHlwZSI6ImRlY29kZUh0bWwiLCJh
cnJheSI6InNlcnAiLCJ0byI6InNuaXBwZXQifV0sImNvbmZpZ092ZXJyaWRlcyI6
W119fQ==
  • Парсятся ссылки ($link), анкоры ($anchor) и сниппеты ($snippet).
  • Реализована воможность задавать кол-во страниц для парсинга (по-умолчанию - 5).
  • Если в выдаче меньше страниц, чем задано для поиска - "пустые" запросы не делаются.
  • Можно менять язык результатов (он же страна для поиска):
hFKFi.png
AF - Afghanistan
AL - Albania
DZ - Algeria
AS - American Samoa
AD - Andorra
AO - Angola
AI - Anguilla
AG - Antigua and Barbuda
AR - Argentina
AM - Armenia
0AC - Ascension Island
AU - Australia
AT - Austria
AZ - Azerbaijan
BS - Bahamas
BH - Bahrain
BD - Bangladesh
BY - Belarus
BE - Belgium
BZ - Belize
BJ - Benin
BT - Bhutan
BO - Bolivia
BA - Bosnia and Herzegovina
BW - Botswana
BR - Brazil
IO - British Indian Ocean Territory
VG - British Virgin Islands
BN - Brunei
BG - Bulgaria
BF - Burkina Faso
MM - Burma
BI - Burundi
KH - Cambodia
CM - Cameroon
CA - Canada
CV - Cape Verde
0CA - Catalonia Catalan Countries
CF - Central African Republic
TD - Chad
CL - Chile
CN - China
CC - Cocos (Keeling) Islands
CO - Colombia
CK - Cook Islands
CR - Costa Rica
HR - Croatia
CU - Cuba
CY - Cyprus
CZ - Czech Republic
CD - Democratic Republic of the Congo
DK - Denmark
DJ - Djibouti
DM - Dominica
DO - Dominican Republic
EC - Ecuador
EG - Egypt
SV - El Salvador
EE - Estonia
ET - Ethiopia
FM - Federated States of Micronesia
FJ - Fiji
FI - Finland
FR - France
GF - French Guiana
GA - Gabon
GM - Gambia
GE - Georgia
DE - Germany
GH - Ghana
GI - Gibraltar
GR - Greece
GL - Greenland
GP - Guadeloupe
GT - Guatemala
0GG - Guernsey
GY - Guyana
HT - Haiti
HN - Honduras
HK - Hong Kong
HU - Hungary
IS - Iceland
IN - India
ID - Indonesia
IR - Iran
IQ - Iraq
IE - Ireland
IM - Isle of Man
IL - Israel
IT - Italy
CI - Ivory Coast
JM - Jamaica
JP - Japan
0JE - Jersey
JO - Jordan
KZ - Kazakhstan
KE - Kenya
KI - Kiribati
KW - Kuwait
KG - Kyrgyzstan
LA - Laos
LV - Latvia
LB - Lebanon
LS - Lesotho
LY - Libya
LI - Liechtenstein
LT - Lithuania
LU - Luxembourg
MK - Macedonia
MG - Madagascar
MW - Malawi
MY - Malaysia
MV - Maldives
ML - Mali
MT - Malta
MU - Mauritius
MX - Mexico
MD - Moldova
MN - Mongolia
ME - Montenegro
MS - Montserrat
MA - Morocco
MZ - Mozambique
NA - Namibia
NR - Nauru
NP - Nepal
NL - Netherlands
NZ - New Zealand
NI - Nicaragua
NE - Niger
NG - Nigeria
NU - Niue
NF - Norfolk Island
NO - Norway
OM - Oman
PK - Pakistan
PS - Palestine
PA - Panama
PG - Papua New Guinea
PY - Paraguay
PE - Peru
PH - Philippines
PN - Pitcairn Islands
PL - Poland
PT - Portugal
PR - Puerto Rico
QA - Qatar
CG - Republic of the Congo
RO - Romania
RU - Russia
RW - Rwanda
SH - Saint Helena
LC - Saint Lucia
VC - Saint Vincent and the Grenadines
WS - Samoa
SM - San Marino
ST - Sao Tome and Principe
SA - Saudi Arabia
SN - Senegal
RS - Serbia
SC - Seychelles
SL - Sierra Leone
SG - Singapore
SK - Slovakia
SI - Slovenia
SB - Solomon Islands
SO - Somalia
ZA - South Africa
KR - South Korea
ES - Spain
LK - Sri Lanka
SE - Sweden
CH - Switzerland
TW - Taiwan
TJ - Tajikistan
TZ - Tanzania
TH - Thailand
TL - Timor-Leste
TG - Togo
TK - Tokelau
TO - Tonga
TT - Trinidad and Tobago
TN - Tunisia
TR - Turkey
TM - Turkmenistan
UG - Uganda
UA - Ukraine
AE - United Arab Emirates
UK - United Kingdom
US - United States
VI - United States Virgin Islands
UY - Uruguay
UZ - Uzbekistan
VU - Vanuatu
VE - Venezuela
VN - Vietnam
ZM - Zambia
ZW - Zimbabwe
  • Поддерживаются все поисковые операторы Гугла.
Как показали тесты - выдача такая же как и у Гугла. При парсинге с использованием поисковых операторов (в частности inurl) каптч и банов нету.
 
А как подсказки парсить? Пробую $serp.format('$suggest\n') , на выходе пустота
 
Подсказки я здесь не делал. Только ссылки ($link), анкоры ($anchor) и сниппеты ($snippet)
 
Понятно. Просто здесь подсказок больше чем в гугле по одному и тому же ключу. Но всё равно - спасибо. )
 
Парсер подсказок из search.disconnect.me
zHiTy.png

Код:
eyJwcmVzZXQiOiJzZWFyY2guZGlzY29ubmVjdC5tZSBzdWdnZXN0cyIsInZhbHVl
Ijp7InByZXNldCI6InNlYXJjaC5kaXNjb25uZWN0Lm1lIHN1Z2dlc3RzIiwicGFy
c2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIseyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOjIwMH0seyJ0eXBlIjoiY3VzdG9tUmVz
dWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiKD86LFxcW1wifCxcIikoLis/
KVwiIiwicmVnZXhUeXBlIjoiZyIsInJlc3VsdFR5cGUiOiJhcnJheSIsImFycmF5
TmFtZSI6InN1Z2dlc3RzIiwicmVzdWx0cyI6WyJzdWdnZXN0Il19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRyZXN1bHQiLCJ2YWx1ZSI6IiRzdWdnZXN0
cy5mb3JtYXQoJyRzdWdnZXN0XFxuJykifSx7InR5cGUiOiJvdmVycmlkZSIsImlk
IjoiZGV0ZWN0Y2hhcnNldCIsInZhbHVlIjp0cnVlfSx7InR5cGUiOiJ1bmlxdWUi
LCJyZXN1bHQiOlsic3VnZ2VzdHMiLCJzdWdnZXN0Il0sInVuaXF1ZVR5cGUiOiJz
dHJpbmciLCJ1bmlxdWVHbG9iYWwiOnRydWV9XV0sInJlc3VsdHNGb3JtYXQiOiJb
JSB0b29scy5xdWVyeS5hZGRBbGwocDEuc3VnZ2VzdHMsICdzdWdnZXN0JywgNSkg
JV0kcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmls
ZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0IiwiYWRkaXRpb25hbEZvcm1h
dHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6WyJodHRw
czovL3NlYXJjaC5kaXNjb25uZWN0Lm1lL3NlYXJjaFRlcm1zL3N1Z2dlc3Q/cXVl
cnk9JHF1ZXJ5JmxvY2F0aW9uPVVTIl0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJz
YXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFs
bExldmVscyI6dHJ1ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl
LCJxdWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlv
bnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVl
IjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwi
cmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVp
bGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=
  • Язык задается в параметре location= (на скрине выделено зеленым). Сокращения те же.
  • Реализована возможность подставлять подсказки обратно в запросы (по аналогии с Parse to level). Уровень указывается в строке Result format (выделено красным). Если убрать данный параметр, то подсказки будут подставляться до тех пор, пока будут попадаться новые уникальные.
  • Уникализация включена.
  • Из какого именно поисковика тянутся подсказки - неизвестно: в запросе не передается параметр, указывающий на тот или иной поисковик.
 
Последнее редактирование:
Очень медленно парсит
Данный пресет не претендует на замену парсера Гугла и показан лишь как дополнительный способ парсинга. А по поводу скорости - судите сами:
Было запущены два одинаковых задания: парсинг Гугла и парсинг disconnect.
Условия и запросы одинаковы, парсинг в 100 потоков, прокси те же.
После 3-х минут работы:
SE::Google: кол-во результатов - 8215, кол-во неудачных запросов - 343, средняя скорость парсинга - 407.
Парсер Disconnect: кол-во результатов - 17420, кол-во неудачных запросов - 0, средняя скорость парсинга - 501.
Скриншоты:
Disconnect
6D546.png

Google
3UVuc.png
 
как по-мне, то отлично парсит (огромное спасибо поддержке). но как долго просуществует этот "клон" - неизвестно. А вообще было бы неплохо сделать его отдельным парсером, чтобы парсить картинки, видео и т.д.
 
Насчет отдельного парсера я ничего сказать не могу, а вот сделать такие же пресеты для остальных их сервисов - не проблема)
 
у меня одного поисковик не отдает результаты по inurl: ?
 
Возможно были какие-то неполадки в работе сервиса... Сейчас все работает:
qwxLY.png
 
Подскажите, как им спарсить результаты за определенное время? (месяц, неделя, год)
 
Скорее всего, у сервиса disconnect.me периодически бывают проблемы в работе. Вчера сервис некорректно отдавал выдачу, начиная со второй страницы, сегодня все нормально:
w4rFH.png
 
Раньше норм было, сейчас попробовал, на любой запрос

<div id="no-results">
<p>Your search - <strong>video</strong> - did not match any documents.</p>
<p>Suggestions:</p>
<p>Try different keywords.</p>
</div>
 
Для сервиса search.disconnect.me начиная с версии 1.1.381 добавлен отдельный парсер:
NFRXz.png
 
Назад
Верх