Добрый день. Сегодня возникла необходимость в парсинге контента с других сайтов. Раньше парсилось без проблем (на более старых версиях), на обновленной версии папка с текстовиками выходит пустая, хотя счетчик показывает прогресс. Где настала проблема!? Свои утверждения подкрепляю скринами и кодом пресета Спойлер: Код пресета eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0 b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+ XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0 IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRz Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz dWx0c0ZpbGVOYW1lIjoidGV4dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFs Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJpZXNGcm9tIjoi ZmlsZSIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpm YWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMi Onsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRv ciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1 bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtl ZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBl bmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJl c3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W10sInF1ZXJpZXNG aWxlIjpbInJlc3VsdHMvaGF0aGF5b2dhX3VybC50eHQiXX19
Значит взял несколько произвольных запросов 54 штуки (под спойлером) Спойлер: запросы https://www.linkedin.com/pulse/101-yoga-lesson-plans-turn-them-passive-income-streams-george-watts https://www.pinterest.com/pin/486951778435998520/ https://itunes.apple.com/us/podcast/yoga-practice-video-yoga-vidya/id296475404?mt=2 http://www.frequency.com/video/boy-yoga-official-video/246297783?cid=5-1995 http://issuu.com/harfordmd/docs/bbyspring2015_final_singlepages http://timesofindia.indiatimes.com/india/A-rare-kind-of-book-club/articleshow/48216385.cms http://www.patheos.com/blogs/whitehindu/2013/01/where-does-a-white-hindu-start/ http://scienceblogs.com/insolence/2011/06/06/detoxifying-fashionably/ http://www.telegraphindia.com/1080525/jsp/graphiti/story_9311049.jsp http://www.timesofmalta.com/articles/view/20140727/travel/Ob-La-Di-Ob-La-Yoga.529662 https://itunes.apple.com/cn/app/hatha-yoga/id499396100?mt=8 http://www.arkansasonline.com/news/2016/feb/14/louise-ellis-20160214/?f=latest http://abcnews.go.com/Travel/BusinessTravel/story?id=5808591&page=1 http://www.scoop.co.nz/stories/HL0707/S00261/freedom-rider-nazis-attack-iran.htm http://www.cntraveler.com/stories/2007-09-17/striking-a-new-pose http://www.tcpalm.com/specialty-pub...ossing-yoga-paths-ep-961907101-341028481.html http://www.pressbox.co.uk/Health/YO...LTH_PEACE_AND_HAPPINESS_IN_LIFE__1651973.html http://www.tctimes.com/living/featu...cle_e598a308-a99f-11e5-a704-23c8c38d77a7.html http://travel.india.com/articles/top-9-yoga-centres-in-india/ http://www.msn.com/en-in/news/other...on-how-anyone-can-unplug-with-yoga/ar-AAbudTD http://www.vanityfair.com/news/2007/06/Planet-Yoga http://www.bloomberg.com/bw/stories...siness-news-stock-market-and-financial-advice http://www1.folha.uol.com.br/intern...-serves-as-sao-paulos-indian-connection.shtml http://www.indiaprwire.com/pressrelease/education/20150128354791.htm http://www.4-traders.com/NIKE-INC-13739/news/Nike-The-Y-Commerce-Boom-20589603/ https://www.gg2.net/community/community-news/International+yoga+festival/4496 http://www.luxurytravelmagazine.com...xperiences-for-luxurious-relaxation-19662.php http://www.faithstreet.com/onfaith/2010/04/18/nearly-twenty-million-people-in/5960 https://www.linkedin.com/in/yoga-teacher-training-9b854896 http://www.thehealthsite.com/fitness/top-5-yoga-schools-in-india-you-must-visit-t915/ http://www.nwaonline.com/news/2016/feb/14/louise-ellis-20160214/?features-profiles http://www.timeout.com/travel/features/1225/asias-best-yoga-retreats http://issuu.com/accipio777/docs/tattwa_shuddhi http://economictimes.indiatimes.com..._centers/articleshow/msid-2971604,curpg-2.cms http://indiatoday.intoday.in/story/...ese-top-7-yoga-schools-of-india/1/445646.html http://timesofindia.indiatimes.com/...-kick-off-on-March-1/articleshow/51180859.cms http://blog.timesunion.com/holistichealth/just-another-yoga-adventure/7337/ http://usa.chinadaily.com.cn/china/2015-07/04/content_21178168.htm http://www.thehindu.com/news/nation...nd-travel-to-boost-economy/article7337130.ece https://www.pinterest.com/pin/35536284535706896/ http://www.redorbit.com/news/genera...es-a-yoga-month-with-rishikul-yogshala-india/ http://articles.economictimes.india...ws/63671895_1_yoga-class-yoga-studio-yoga-day http://www.prcarbon.com/aym-yoga-co...new-yoga-instructor-courses-programs/5224210/ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3215360/ http://edition.cnn.com/2015/07/28/sport/10-yoga-types/index.html https://medium.com/sant-mat-meditat...fi-origins-of-hu-and-sultan-bahu-a3580c9e571f http://www.spokesman.com/stories/2011/mar/19/yoga-guides-spiritual-path-for-swami-radhananda/ http://www.amazon.com/Kundalini-Yoga-West-foundation-character-ebook/dp/B007UILH5C http://www.saycampuslife.com/2015/09/25/yoga-your-way-to-calm/ http://www.healthline.com/health/fitness-exercise/best-videos-yoga http://www.standard.co.uk/lifestyle...ine-classes-you-can-try-at-home-10282232.html http://www.langleyadvance.com/community/369179171.html http://www.blisstree.com/2011/04/06...ng-yoga-voices-to-relax-mind-body-and-spirit/ https://www.pinterest.com/pin/477874210433210669/ Результат в папке виден на скрине. Текстовики пустые...
Причина видна на скрине - название большинства пустых файлов указывает на какую-то ошибку. Скорее всего страница не доступна, на ней нету текста подходящего под ваши условия, текст подгружается скриптом или тайтл отсутствует... По приведенным запросам на вашем пресете у меня с переменным успехом парсятся почти все страницы (скорее всего по некоторым ссылкам выдача зависит от прокси): Вот чуть модифицированный ваш пресет, который кроме прочего соберет все запросы, по которым не было получено текста, в отдельный файл notext.txt Спойлер: Код Код: eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5 cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMiLCJ0ZXh0Il0sImZpbHRlclR5 cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdcXGRdezYwLH1bIT8uXSIsIm9w dGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5ibG9ja2xlbmd0 aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3VzdG9tUmVzdWx0IiwicmVzdWx0 IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+XSopPC90aXRsZT4iLCJyZWdl eFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlOYW1lIjoiIiwi cmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNl dCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidGV4 dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W1sidGV4dC9b JSAocDEudGV4dHMuc2l6ZSA9PSAwKSA/ICdub3RleHQudHh0JyA6ICcnICVdIiwi JHF1ZXJ5XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6 WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxk ZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zlcndy aXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj b25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6IiIsInVzZVJl c3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2V9fQ== Используя его, вы сможете получить запросы, не возвращающие результата и проанализировать их отдельно.
Проблема не решена У вас же все отлично парсится почти на 100% (видно на вашем скрине), у меня же просто один текстовый документ с именем "none" и нулевой длинной. Все текстовые ссылки рабочие, проверял и через прокси и без, скриптов не подгружают. На старых версиях парсера данный пресет работал... Может у вас другие дефолтные настройки HTML::TextExtractor?
Напишите в личку свой Тим Вьювер - я посмотрю. P.S. Дефолтные настройки не могут быть другими. Они всегда одинаковы.