Парсинг SimilarWeb

alexcraft

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте. Создал простенький парсер, собираю количество трафика через SimilarWeb и alexa rank.
397

Столкнулся с проблемой: когда даю 10000 доменов, он собирает значения где то для 1000 доменов, а потом постоянно значение none записывает из SimilarWeb. Алексу нормально собирает для всех доменов. Пробую те домены, которые были none запустить через тестирование и данные собираются нормально. Подскажите пожалуйста в чем может быть загвоздка?
P.S. Собираю в 35 потоков. Прокси из MembersArea.
Код пресета, на всякий случай, ниже:
eyJwcmVzZXQiOiJDaGVja01pcmFsaW5rcyIsInZhbHVlIjp7InByZXNldCI6IkNo
ZWNrTWlyYWxpbmtzIiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIs
eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBd
fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6
Imh0dHBzOi8vd3d3LnNpbWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In1dLFsi
UmFuazo6QWxleGEiLCJvbmx5X2FsZXhhX3JhbmsiXV0sInJlc3VsdHNGb3JtYXQi
OiIkcXVlcnk7JHAxLnRyYWZpYzskcDIucHJlc2V0XFxuIiwicmVzdWx0c1NhdmVU
byI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCku
dHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8i
LCJxdWVyaWVzRnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwi
dW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjp0cnVlLCJp
dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk
ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs
cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi
ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl
LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1
aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh
Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW0BjbGFzcz0nZW5nYWdl
bWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZSddIiwidG8iOiJ0cmFm
aWMifV0sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpu
dWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNr
T25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmll
c0ZpbGUiOlsibWlyYWxpbmtzX3Rlc3RfQkFELnR4dCJdfSwicGFyc2Vyc0NvbmZQ
cmVzZXRzIjp7IlJhbms6OkFsZXhhIjp7Im9ubHlfYWxleGFfcmFuayI6eyJwcm94
eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZvcm1hdCI6IiRx
dWVyeSIsImZvcm1hdHJlc3VsdCI6IiRyYW5rIiwibWF4X3NpemUiOiIxMDQ4NTc2
IiwicHJveHliYW5uZWRjbGVhbnVwIjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVx
dWVzdGRlbGF5IjoiMCIsInByb3h5Q2hlY2tlciI6IioiLCJkb19nemlwIjp0cnVl
LCJleHRyYXF1ZXJ5IjoiIn19fX0=
 

Вложения

  • 3619c7545e4f4c9eba031bab95dc588f.png
    3619c7545e4f4c9eba031bab95dc588f.png
    32,5 КБ · Просмотры: 313
Добрый день.
Если посмотреть на содержимое страницы в тот момент, когда пресет по запросу выдает none, то мы увидим что выдается пустая страница с редиректом на страницу каптчи. Поэтому нужно сделать (и это проще всего), чтобы парсер при получении такой страницы просто повторял запрос. Для этого существует функция Check content. Делаем так:
TkzUu.png

и в результатах больше не будет none из-за каптчи.
 
Почему-то не получается получить данные через XPath:(

Вот пресет:
Код:
eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh
cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz
MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp
bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi
LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh
ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs
dHNGb3JtYXQiOiIkcXVlcnk7JHRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRvIjoi
ZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQi
LCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1
ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2
ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxM
ZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2Us
InF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9u
cyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUi
OiJObyIsIm1vcmVPcHRpb25zIjp0cnVlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJl
c3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxk
ZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRhIl0sInR5cGUiOiJ4cGF0aCIsInhwYXRo
IjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFzcywnZW5nYWdlbWVudEluZm8tdmFsdWVO
dW1iZXIganMtY291bnRWYWx1ZSBzZ19zZWxlY3RlZCcpXSIsInRvIjoidHJhZmZp
YyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51
bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tP
bkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifSwicGFyc2Vy
c0NvbmZQcmVzZXRzIjp7Ik5ldDo6SFRUUCI6eyJcdTA0MjFcdTA0NDJcdTA0MzBc
dTA0M2RcdTA0MzRcdTA0MzBcdTA0NDBcdTA0NDIiOnsidXNlci1hZ2VudCI6Ik1v
emlsbGEvNC4wIChjb21wYXRpYmxlOyBNU0lFIDYuMDsgV2luZG93cyBOVCA1LjE7
IFNWMSkiLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsImhlYWRlcnMiOiIiLCJnb29k
Q29kZVJlZ2V4IjoiIiwiYnJvd3NlciI6dHJ1ZSwicHJveHlDaGVja2VyIjoiKiIs
Imdvb2RDb2RlIjoiIiwiZG9fZ3ppcCI6dHJ1ZSwiYm9keSI6IiIsInRpbWVvdXQi
OiI1IiwibWF4Q29va2llcyI6MTYsIm1ldGhvZCI6IkdFVCIsInVzZXByb3h5Ijp0
cnVlLCJieXBhc3NDbG91ZEZsYXJlIjoxLCJvbmx5aGVhZGVycyI6ZmFsc2UsImNv
b2tpZXMiOiIiLCJwcm94eXJldHJpZXMiOiIxMCIsInJlcXVlc3RkZWxheSI6IjAi
LCJwcm94eWJhbm5lZGNsZWFudXAiOiIzMDAiLCJmb3JtYXRyZXN1bHQiOiIkY29k
ZSAkcmVhc29uXFxuJGhlYWRlcnNcXG5cXG4kZGF0YSIsImRldGVjdGNoYXJzZXQi
OnRydWUsInJlY3Vyc2UiOiI3IiwibWF4X3NpemUiOiIxMDQ4NTc2In19fX0=

что я делаю не так?)
 

Вложения

  • 2017-04-04_22-41-09.jpg
    2017-04-04_22-41-09.jpg
    498,8 КБ · Просмотры: 24
Последнее редактирование модератором:
Всё, решил. Вот пресет:
Код:
eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh
cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz
MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp
bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi
LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh
ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6
Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs
dHNGb3JtYXQiOiIkcXVlcnk7JHAxLnRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRv
IjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50
eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJpZXNGcm9tIjoidGV4dCIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1
bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJp
dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk
ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs
cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi
ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl
LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1
aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh
Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFz
cywnZW5nYWdlbWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZScpXSIs
InRvIjoidHJhZmZpYyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09u
Q29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFs
c2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMi
OiIiLCJxdWVyaWVzIjoibW5nei5ydVxuIn0sInBhcnNlcnNDb25mUHJlc2V0cyI6
eyJOZXQ6OkhUVFAiOnsiXHUwNDIxXHUwNDQyXHUwNDMwXHUwNDNkXHUwNDM0XHUw
NDMwXHUwNDQwXHUwNDQyIjp7InVzZXItYWdlbnQiOiJNb3ppbGxhLzQuMCAoY29t
cGF0aWJsZTsgTVNJRSA2LjA7IFdpbmRvd3MgTlQgNS4xOyBTVjEpIiwicXVlcnlm
b3JtYXQiOiIkcXVlcnkiLCJoZWFkZXJzIjoiIiwiZ29vZENvZGVSZWdleCI6IiIs
ImJyb3dzZXIiOnRydWUsInByb3h5Q2hlY2tlciI6IioiLCJnb29kQ29kZSI6IiIs
ImRvX2d6aXAiOnRydWUsImJvZHkiOiIiLCJ0aW1lb3V0IjoiNSIsIm1heENvb2tp
ZXMiOjE2LCJtZXRob2QiOiJHRVQiLCJ1c2Vwcm94eSI6dHJ1ZSwiYnlwYXNzQ2xv
dWRGbGFyZSI6MSwib25seWhlYWRlcnMiOmZhbHNlLCJjb29raWVzIjoiIiwicHJv
eHlyZXRyaWVzIjoiMTAiLCJyZXF1ZXN0ZGVsYXkiOiIwIiwicHJveHliYW5uZWRj
bGVhbnVwIjoiMzAwIiwiZm9ybWF0cmVzdWx0IjoiJGNvZGUgJHJlYXNvblxcbiRo
ZWFkZXJzXFxuXFxuJGRhdGEiLCJkZXRlY3RjaGFyc2V0Ijp0cnVlLCJyZWN1cnNl
IjoiNyIsIm1heF9zaXplIjoiMTA0ODU3NiJ9fX19
 
Последнее редактирование модератором:
Потому что ты используешь:
//span[contains(@class,'engagementInfo-valueNumber js-countValue sg_selected')]
а в коде нет концовки: <span class="engagementInfo-valueNumber js-countValue">266.1K</span>
Так будет работать: //span[contains(@class,"engagementInfo-valueNumber js-countValue")]
P.S. И проверку на каптчу не забудь поставить)
 
Потому что ты используешь:
//span[contains(@class,'engagementInfo-valueNumber js-countValue sg_selected')]
а в коде нет концовки: <span class="engagementInfo-valueNumber js-countValue">266.1K</span>
Так будет работать: //span[contains(@class,"engagementInfo-valueNumber js-countValue")]
P.S. И проверку на каптчу не забудь поставить)

Спасибо, да, разобрался :)
 
Назад
Верх