Парсинг контента (перестал работать)

poiskspider

A-Parser Pro License
A-Parser Pro
Добрый день.
Сегодня возникла необходимость в парсинге контента с других сайтов. Раньше парсилось без проблем (на более старых версиях), на обновленной версии папка с текстовиками выходит пустая, хотя счетчик показывает прогресс. Где настала проблема!?
Свои утверждения подкрепляю скринами и кодом пресета
aparser2.jpg aparser.jpg
eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi
Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0
b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi
LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc
XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz
dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+
XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0
IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRz
Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
dWx0c0ZpbGVOYW1lIjoidGV4dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFs
Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJpZXNGcm9tIjoi
ZmlsZSIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpm
YWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMi
Onsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRv
ciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1
bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtl
ZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBl
bmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJl
c3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W10sInF1ZXJpZXNG
aWxlIjpbInJlc3VsdHMvaGF0aGF5b2dhX3VybC50eHQiXX19
 
Добрый день.
Сбросьте сюда или в личку несколько запросов, по которым нету результата.
 
Добрый день.
Сбросьте сюда или в личку несколько запросов, по которым нету результата.
Значит взял несколько произвольных запросов 54 штуки (под спойлером)
https://www.linkedin.com/pulse/101-yoga-lesson-plans-turn-them-passive-income-streams-george-watts
https://www.pinterest.com/pin/486951778435998520/
https://itunes.apple.com/us/podcast/yoga-practice-video-yoga-vidya/id296475404?mt=2
http://www.frequency.com/video/boy-yoga-official-video/246297783?cid=5-1995
http://issuu.com/harfordmd/docs/bbyspring2015_final_singlepages
http://timesofindia.indiatimes.com/india/A-rare-kind-of-book-club/articleshow/48216385.cms
http://www.patheos.com/blogs/whitehindu/2013/01/where-does-a-white-hindu-start/
http://scienceblogs.com/insolence/2011/06/06/detoxifying-fashionably/
http://www.telegraphindia.com/1080525/jsp/graphiti/story_9311049.jsp
http://www.timesofmalta.com/articles/view/20140727/travel/Ob-La-Di-Ob-La-Yoga.529662
https://itunes.apple.com/cn/app/hatha-yoga/id499396100?mt=8
http://www.arkansasonline.com/news/2016/feb/14/louise-ellis-20160214/?f=latest
http://abcnews.go.com/Travel/BusinessTravel/story?id=5808591&page=1
http://www.scoop.co.nz/stories/HL0707/S00261/freedom-rider-nazis-attack-iran.htm
http://www.cntraveler.com/stories/2007-09-17/striking-a-new-pose
http://www.tcpalm.com/specialty-pub...ossing-yoga-paths-ep-961907101-341028481.html
http://www.pressbox.co.uk/Health/YO...LTH_PEACE_AND_HAPPINESS_IN_LIFE__1651973.html
http://www.tctimes.com/living/featu...cle_e598a308-a99f-11e5-a704-23c8c38d77a7.html
http://travel.india.com/articles/top-9-yoga-centres-in-india/
http://www.msn.com/en-in/news/other...on-how-anyone-can-unplug-with-yoga/ar-AAbudTD
http://www.vanityfair.com/news/2007/06/Planet-Yoga
http://www.bloomberg.com/bw/stories...siness-news-stock-market-and-financial-advice
http://www1.folha.uol.com.br/intern...-serves-as-sao-paulos-indian-connection.shtml
http://www.indiaprwire.com/pressrelease/education/20150128354791.htm
http://www.4-traders.com/NIKE-INC-13739/news/Nike-The-Y-Commerce-Boom-20589603/
https://www.gg2.net/community/community-news/International+yoga+festival/4496
http://www.luxurytravelmagazine.com...xperiences-for-luxurious-relaxation-19662.php
http://www.faithstreet.com/onfaith/2010/04/18/nearly-twenty-million-people-in/5960
https://www.linkedin.com/in/yoga-teacher-training-9b854896
http://www.thehealthsite.com/fitness/top-5-yoga-schools-in-india-you-must-visit-t915/
http://www.nwaonline.com/news/2016/feb/14/louise-ellis-20160214/?features-profiles
http://www.timeout.com/travel/features/1225/asias-best-yoga-retreats
http://issuu.com/accipio777/docs/tattwa_shuddhi
http://economictimes.indiatimes.com..._centers/articleshow/msid-2971604,curpg-2.cms
http://indiatoday.intoday.in/story/...ese-top-7-yoga-schools-of-india/1/445646.html
http://timesofindia.indiatimes.com/...-kick-off-on-March-1/articleshow/51180859.cms
http://blog.timesunion.com/holistichealth/just-another-yoga-adventure/7337/
http://usa.chinadaily.com.cn/china/2015-07/04/content_21178168.htm
http://www.thehindu.com/news/nation...nd-travel-to-boost-economy/article7337130.ece
https://www.pinterest.com/pin/35536284535706896/
http://www.redorbit.com/news/genera...es-a-yoga-month-with-rishikul-yogshala-india/
http://articles.economictimes.india...ws/63671895_1_yoga-class-yoga-studio-yoga-day
http://www.prcarbon.com/aym-yoga-co...new-yoga-instructor-courses-programs/5224210/
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3215360/
http://edition.cnn.com/2015/07/28/sport/10-yoga-types/index.html
https://medium.com/sant-mat-meditat...fi-origins-of-hu-and-sultan-bahu-a3580c9e571f
http://www.spokesman.com/stories/2011/mar/19/yoga-guides-spiritual-path-for-swami-radhananda/
http://www.amazon.com/Kundalini-Yoga-West-foundation-character-ebook/dp/B007UILH5C
http://www.saycampuslife.com/2015/09/25/yoga-your-way-to-calm/
http://www.healthline.com/health/fitness-exercise/best-videos-yoga
http://www.standard.co.uk/lifestyle...ine-classes-you-can-try-at-home-10282232.html
http://www.langleyadvance.com/community/369179171.html
http://www.blisstree.com/2011/04/06...ng-yoga-voices-to-relax-mind-body-and-spirit/
https://www.pinterest.com/pin/477874210433210669/
Результат в папке виден на скрине. Текстовики пустые...
skrin.jpg
 
Причина видна на скрине - название большинства пустых файлов указывает на какую-то ошибку. Скорее всего страница не доступна, на ней нету текста подходящего под ваши условия, текст подгружается скриптом или тайтл отсутствует...
По приведенным запросам на вашем пресете у меня с переменным успехом парсятся почти все страницы (скорее всего по некоторым ссылкам выдача зависит от прокси):
Z6hVS.png

Вот чуть модифицированный ваш пресет, который кроме прочего соберет все запросы, по которым не было получено текста, в отдельный файл notext.txt
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMiLCJ0ZXh0Il0sImZpbHRlclR5
cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdcXGRdezYwLH1bIT8uXSIsIm9w
dGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5ibG9ja2xlbmd0
aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3VzdG9tUmVzdWx0IiwicmVzdWx0
IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+XSopPC90aXRsZT4iLCJyZWdl
eFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlOYW1lIjoiIiwi
cmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNl
dCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidGV4
dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W1sidGV4dC9b
JSAocDEudGV4dHMuc2l6ZSA9PSAwKSA/ICdub3RleHQudHh0JyA6ICcnICVdIiwi
JHF1ZXJ5XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1hdCI6
WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy
aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz
ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxk
ZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zlcndy
aXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3Jl
T3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVu
ZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJj
b25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6IiIsInVzZVJl
c3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2V9fQ==
Используя его, вы сможете получить запросы, не возвращающие результата и проанализировать их отдельно.
 
Причина видна на скрине - название большинства пустых файлов указывает на какую-то ошибку. Скорее всего страница не доступна, на ней нету текста подходящего под ваши условия, текст подгружается скриптом или тайтл отсутствует...
По приведенным запросам на вашем пресете у меня с переменным успехом парсятся почти все страницы (скорее всего по некоторым ссылкам выдача зависит от прокси):.

Проблема не решена
У вас же все отлично парсится почти на 100% (видно на вашем скрине), у меня же просто один текстовый документ с именем "none" и нулевой длинной.
Все текстовые ссылки рабочие, проверял и через прокси и без, скриптов не подгружают.
На старых версиях парсера данный пресет работал...
Может у вас другие дефолтные настройки HTML::TextExtractor?
 
Напишите в личку свой Тим Вьювер - я посмотрю.

P.S. Дефолтные настройки не могут быть другими. Они всегда одинаковы.
 
Назад
Верх