Здравствуйте. Создал простенький парсер, собираю количество трафика через SimilarWeb и alexa rank. Столкнулся с проблемой: когда даю 10000 доменов, он собирает значения где то для 1000 доменов, а потом постоянно значение none записывает из SimilarWeb. Алексу нормально собирает для всех доменов. Пробую те домены, которые были none запустить через тестирование и данные собираются нормально. Подскажите пожалуйста в чем может быть загвоздка? P.S. Собираю в 35 потоков. Прокси из MembersArea. Код пресета, на всякий случай, ниже: Спойлер eyJwcmVzZXQiOiJDaGVja01pcmFsaW5rcyIsInZhbHVlIjp7InByZXNldCI6IkNo ZWNrTWlyYWxpbmtzIiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIs eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBd fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6 Imh0dHBzOi8vd3d3LnNpbWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In1dLFsi UmFuazo6QWxleGEiLCJvbmx5X2FsZXhhX3JhbmsiXV0sInJlc3VsdHNGb3JtYXQi OiIkcXVlcnk7JHAxLnRyYWZpYzskcDIucHJlc2V0XFxuIiwicmVzdWx0c1NhdmVU byI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCku dHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8i LCJxdWVyaWVzRnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwi dW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjp0cnVlLCJp dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1 aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW0BjbGFzcz0nZW5nYWdl bWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZSddIiwidG8iOiJ0cmFm aWMifV0sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpu dWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNr T25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmll c0ZpbGUiOlsibWlyYWxpbmtzX3Rlc3RfQkFELnR4dCJdfSwicGFyc2Vyc0NvbmZQ cmVzZXRzIjp7IlJhbms6OkFsZXhhIjp7Im9ubHlfYWxleGFfcmFuayI6eyJwcm94 eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZvcm1hdCI6IiRx dWVyeSIsImZvcm1hdHJlc3VsdCI6IiRyYW5rIiwibWF4X3NpemUiOiIxMDQ4NTc2 IiwicHJveHliYW5uZWRjbGVhbnVwIjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVx dWVzdGRlbGF5IjoiMCIsInByb3h5Q2hlY2tlciI6IioiLCJkb19nemlwIjp0cnVl LCJleHRyYXF1ZXJ5IjoiIn19fX0=
Добрый день. Если посмотреть на содержимое страницы в тот момент, когда пресет по запросу выдает none, то мы увидим что выдается пустая страница с редиректом на страницу каптчи. Поэтому нужно сделать (и это проще всего), чтобы парсер при получении такой страницы просто повторял запрос. Для этого существует функция Check content. Делаем так: и в результатах больше не будет none из-за каптчи.
Почему-то не получается получить данные через XPath Вот пресет: Спойлер Код: eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6 Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs dHNGb3JtYXQiOiIkcXVlcnk7JHRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRvIjoi ZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQi LCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1 ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2 ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxM ZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2Us InF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9u cyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUi OiJObyIsIm1vcmVPcHRpb25zIjp0cnVlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJl c3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxk ZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRhIl0sInR5cGUiOiJ4cGF0aCIsInhwYXRo IjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFzcywnZW5nYWdlbWVudEluZm8tdmFsdWVO dW1iZXIganMtY291bnRWYWx1ZSBzZ19zZWxlY3RlZCcpXSIsInRvIjoidHJhZmZp YyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51 bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tP bkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifSwicGFyc2Vy c0NvbmZQcmVzZXRzIjp7Ik5ldDo6SFRUUCI6eyJcdTA0MjFcdTA0NDJcdTA0MzBc dTA0M2RcdTA0MzRcdTA0MzBcdTA0NDBcdTA0NDIiOnsidXNlci1hZ2VudCI6Ik1v emlsbGEvNC4wIChjb21wYXRpYmxlOyBNU0lFIDYuMDsgV2luZG93cyBOVCA1LjE7 IFNWMSkiLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsImhlYWRlcnMiOiIiLCJnb29k Q29kZVJlZ2V4IjoiIiwiYnJvd3NlciI6dHJ1ZSwicHJveHlDaGVja2VyIjoiKiIs Imdvb2RDb2RlIjoiIiwiZG9fZ3ppcCI6dHJ1ZSwiYm9keSI6IiIsInRpbWVvdXQi OiI1IiwibWF4Q29va2llcyI6MTYsIm1ldGhvZCI6IkdFVCIsInVzZXByb3h5Ijp0 cnVlLCJieXBhc3NDbG91ZEZsYXJlIjoxLCJvbmx5aGVhZGVycyI6ZmFsc2UsImNv b2tpZXMiOiIiLCJwcm94eXJldHJpZXMiOiIxMCIsInJlcXVlc3RkZWxheSI6IjAi LCJwcm94eWJhbm5lZGNsZWFudXAiOiIzMDAiLCJmb3JtYXRyZXN1bHQiOiIkY29k ZSAkcmVhc29uXFxuJGhlYWRlcnNcXG5cXG4kZGF0YSIsImRldGVjdGNoYXJzZXQi OnRydWUsInJlY3Vyc2UiOiI3IiwibWF4X3NpemUiOiIxMDQ4NTc2In19fX0= что я делаю не так?)
Всё, решил. Вот пресет: Спойлер Код: eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6 Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs dHNGb3JtYXQiOiIkcXVlcnk7JHAxLnRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRv IjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50 eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIs InF1ZXJpZXNGcm9tIjoidGV4dCIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1 bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJp dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1 aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFz cywnZW5nYWdlbWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZScpXSIs InRvIjoidHJhZmZpYyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09u Q29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFs c2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMi OiIiLCJxdWVyaWVzIjoibW5nei5ydVxuIn0sInBhcnNlcnNDb25mUHJlc2V0cyI6 eyJOZXQ6OkhUVFAiOnsiXHUwNDIxXHUwNDQyXHUwNDMwXHUwNDNkXHUwNDM0XHUw NDMwXHUwNDQwXHUwNDQyIjp7InVzZXItYWdlbnQiOiJNb3ppbGxhLzQuMCAoY29t cGF0aWJsZTsgTVNJRSA2LjA7IFdpbmRvd3MgTlQgNS4xOyBTVjEpIiwicXVlcnlm b3JtYXQiOiIkcXVlcnkiLCJoZWFkZXJzIjoiIiwiZ29vZENvZGVSZWdleCI6IiIs ImJyb3dzZXIiOnRydWUsInByb3h5Q2hlY2tlciI6IioiLCJnb29kQ29kZSI6IiIs ImRvX2d6aXAiOnRydWUsImJvZHkiOiIiLCJ0aW1lb3V0IjoiNSIsIm1heENvb2tp ZXMiOjE2LCJtZXRob2QiOiJHRVQiLCJ1c2Vwcm94eSI6dHJ1ZSwiYnlwYXNzQ2xv dWRGbGFyZSI6MSwib25seWhlYWRlcnMiOmZhbHNlLCJjb29raWVzIjoiIiwicHJv eHlyZXRyaWVzIjoiMTAiLCJyZXF1ZXN0ZGVsYXkiOiIwIiwicHJveHliYW5uZWRj bGVhbnVwIjoiMzAwIiwiZm9ybWF0cmVzdWx0IjoiJGNvZGUgJHJlYXNvblxcbiRo ZWFkZXJzXFxuXFxuJGRhdGEiLCJkZXRlY3RjaGFyc2V0Ijp0cnVlLCJyZWN1cnNl IjoiNyIsIm1heF9zaXplIjoiMTA0ODU3NiJ9fX19
Потому что ты используешь: //span[contains(@class,'engagementInfo-valueNumber js-countValue sg_selected')] а в коде нет концовки: <span class="engagementInfo-valueNumber js-countValue">266.1K</span> Так будет работать: //span[contains(@class,"engagementInfo-valueNumber js-countValue")] P.S. И проверку на каптчу не забудь поставить)
XPath Query может быть проще: Код: //span[@class='engagementInfo-valueNumber js-countValue'] И всё работает