И еще раз о парсинге контента

poiskspider

A-Parser Pro License
A-Parser Pro
Мне необходимо с готового списка урлов спарсить текстовые блоки определенной длины (текстовую информацию, кому как угодно).

Результаты нужно сохранить в отдельную папку. Один текстовик равен ключевику (url), но название этого файла - titleспарсенной страницы.

Подскажите, на скрине, все ли я правильно делаю?
A-Parser_Advanced_SE_Parser_&_Analyze_tool_-_2015-09-01_05.01.32.png
 
Вроде правильно.
Я почему спрашиваю. Если парсю английский контент, то название файлов корректное, а если пытаюсь спарсить русский конент, то либо файлы пустые, либо название файлов английское, явно не совпадающее с title страницы
 
Ну, так выложите код пресета, несколько запросов, по которым у вас возникают вопросы, чтобы можно было протестировать. По одному скрину сложно что-то понять и помочь...
 
eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi
Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0
b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi
LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc
XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz
dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+
XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0
IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRz
Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
dWx0c0ZpbGVOYW1lIjoidGV4dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFs
Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijpb
IiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJp
ZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNl
LCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0
aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx
dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi
LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC
dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ==


http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html
http://www.footballtop.ru/news/zenit-krasnodar-pryamaya-translyaciya-smotret-onlayn-15-08-2015-po-kanalu-nash-futbol
http://www.eurosport.ru/all-sports/story_sto4872372.shtml
http://rus.postimees.ee/3305585/smotrite-v-subbotu-s-kommentariem-na-russkom-sillamjaje-prinimaet-infonet
http://www.infpol.ru/glavnye-novosti/item/14305-viktor-gusev-mozhet-byt-ya-ne-tuda-zakhodil-i-ne-tam-smotrel.html
http://www.eurofootball.ru/news/51498/internettv-laola1tv-pokazhet-vse-matchi-futbolnoy-bundesligi-besplatno
http://bestgoal.tv/news/22159/manchester-siti-chelsi-smotret-onlajn-translyatsiyu-matcha.html
http://ianews.ru/articles/65931/

Результат - пустая папка, ничего не спарсилось, хотя бывает, что создает просто пустые текстовые файлы
 
Последнее редактирование модератором:
Все вполне нормально парсится. Правда в ваш пресет лучше добавить 2 Конструктора результатов:
Gkioz.png

В итоге получим такое:
TyCWf.png

Также в пресет лучше прописать нужный юзерагент, чтобы не было такого, как последний файл.
Насчет содержания файлов. К примеру, по ссылке http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html - нет ни одного текста, который был бы больше 500 символов и матчился вашей регуляркой. Если вообще убрать фильтр и поставить Min block length = 5, то получим кучу текста (аж 14 Кб). Поэтому пересмотрите требования к тексту.
 
дельные советы даете!
Хотелось бы уточнить, что всетаки дают эти дополнительные конструкторы результата?
И по поводу минимального блока я думаю тут правильно ставить 500 символов, это дает на выходе более качественный и цельный контент, более информативные статьи

Упсс!! Что то у меня всеравно не парсится с такими данными, пишет в логах вот такую фигню: "
http://www.footballtop.ru/news/zeni...otret-onlayn-15-08-2015-po-kanalu-nash-futbol
Results collector: Bad results filename "results/text/Air, France. Как самое дорогое ТВ стало лучшим в мире - Все виды спорта - Eurosport.txt" at build/core.to_build.pl line 4276.
"
Что это может быть подскажите?
 
Хотелось бы уточнить, что всетаки дают эти дополнительные конструкторы результата?
http://a-parser.com/wiki/result-builder/
В этом примере преобразовываются HTML- сущности и заменяется символ "/" на "_".
я думаю тут правильно ставить 500 символов
Вам виднее...
Имя файла содержит недопустимые файлы. Проверяйте что у вас в title и, если есть недопустимые символы - заменяйте их с помощью Конструктора результатов. Например "|".
 
Имя файла содержит недопустимые файлы. Проверяйте что у вас в title и, если есть недопустимые символы - заменяйте их с помощью Конструктора результатов. Например "|".

Что я не пойму, я парсю теме же данными что и вы (выше код пресета и урл задания) и у вас абсолютно все спарсилось, у меня же не хочет. Как так?
А может это просто название в кирилице не поддерживается, потому что английские сайты с титле инглиш парсит без проблем.
Хотя вы выше пробывали у вас получилось:(
 
Последнее редактирование:
Попробуй использовать последнюю версию парсера
 
Попробуй использовать последнюю версию парсера
Обновился до последней версии, результата это не дало!!! Не хочет он парсить у меня с кирилическим названием файла, папка с результатом пустая, в ней только присутствует один текстовый файл с названием "NONE" 0 кб
В логах пишет новую ошибку "tls: undefined socket at build/core.to_build.pl line 3612."
Давайте решим этот вопрос
 
По какому запросу у вас не работает?
dvkCc.png
 
По какому запросу у вас не работает?
eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi
Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0
b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi
LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc
XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz
dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+
XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0
IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfSx7InR5cGUiOiJv
dmVycmlkZSIsImlkIjoidXNlci1hZ2VudCIsInZhbHVlIjoiWyUgdG9vbHMudWEu
cmFuZG9tKCkgJV0ifV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJl
c3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidGV4dC8ke3Ax
LnRpdGxlfS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
dWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVz
IjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlv
bnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVy
YXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNl
fSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpm
YWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVl
cnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCwi
dGl0bGUiXSwidHlwZSI6ImRlY29kZUh0bWwiLCJ0byI6InRpdGxlIn0seyJzb3Vy
Y2UiOlswLCJ0aXRsZSJdLCJ0eXBlIjoic3RyaW5nUmVwbGFjZSIsInNlYXJjaCI6
Ii8iLCJyZXBsYWNlIjoiXyIsInRvIjoidGl0bGUifV0sImNvbmZpZ092ZXJyaWRl
cyI6W119fQ==

У меня результат - пустая папка text
Скрин лога:
1.jpg
 
Назад
Верх