Как спарсить статьи с заданного списка сайтов 1.0

katim · 4 июн 2015

Всем привет!

Думаю у многих возникал вопрос как напарсить статьи с сайтов.

Лучше что придумал на данный момент это парсить список урлов (думаю тут ни у кого не возникает проблем) а потом парсером HTML::TextExtractor вытягивать контент.

Но, есть ньюансы - как заставить вытягивать только статью без другого контента который идет на странице, и как сохранять каждую статью с целевого сайта в отдельный файл?

Сайты со статьями для примера:
http://www.personal-loan.my/al-rajhi-personal-loan/236/
http://www.auctioncope.com/guide/how-to-remove-paypal-limitation-and-restore-account-access/
http://www.acaloans.com.au/personal-finance/

Support · 4 июн 2015

Как вариант, проверять размер текста и отсеивать маленькие. В примере я задал размер > 1000 символов. Это не гарантирует, что будут найдены все именно статьи, но все же отсеивает много ненужного.
Относительно сохранения, то в примере результат сохраняется в файл с именем домена и датой.
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiJbJSBG
T1JFQUNIIHRleHQgSU4gdGV4dHMgJV1cblslIHRleHRzLiR7bG9vcC5pbmRleH0u
dGV4dC5sZW5ndGggPiAxMDAwID8gdGV4dHMuJHtsb29wLmluZGV4fS50ZXh0IDog
JycgLSVdXG5bJSBFTkQgJV0ifV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNl
dCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoicG9z
LyRxdWVyeS5kb21haW4tJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9u
YWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQi
OlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVl
cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs
c2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNP
cHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVu
aXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6
IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2Ui
OiJxdWVyeSIsInR5cGUiOiJleHRyYWN0RG9tYWluIiwidG8iOiJkb21haW4ifV0s
InJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbInRleHRzIiwidGV4dCJd
XSwidHlwZSI6InJlbW92ZUh0bWwiLCJhcnJheSI6InRleHRzIiwidG8iOiJ0ZXh0
In1dLCJjb25maWdPdmVycmlkZXMiOltdfX0=

katim · 4 июн 2015

Спасибо, вроде работает хорошо - буду тестировать. Спасибо

element.4seo · 25 авг 2015

подскажите пжл, как тут добавить перенос, после точки новая строка, пробовал http://take.ms/MbeXT и возможные вариации, не помогло (

element.4seo · 25 авг 2015

так же пробовал спарсить тут морду - http://xnspy.com/, получился пустой файл

Support · 25 авг 2015

element.4seo сказал(а): ↑

подскажите пжл, как тут добавить перенос
Нажмите, чтобы раскрыть...

На данный момент такой возможности нету: http://a-parser.com/threads/1804/

element.4seo сказал(а): ↑

так же пробовал спарсить тут морду - http://xnspy.com/, получился пустой файл
Нажмите, чтобы раскрыть...

Проанализируйте сайт. На первый взгляд, там JS подгружает инфу...

element.4seo · 25 авг 2015

а какие еще есть варианты спарсить текст и разбить на строки?

Support · 25 авг 2015

Разбивать вручную в текстовом редакторе.

element.4seo · 25 авг 2015

спасибо )

aliasfox · 6 апр 2016

Пресет работает отлично, но в сохраняемом файле остается много пустых строк, подскажите пож. как их удалить?

Support · 7 апр 2016

aliasfox сказал(а): ↑

остается много пустых строк, подскажите пож. как их удалить?
Нажмите, чтобы раскрыть...

Измените немного формат результата:
Код:
[% FOREACH text IN texts;
    texts.${loop.index}.text.length > 1000 ? texts.${loop.index}.text _ "\n" : '';
END %]

creck · 16 дек 2018

Как записывать результат, который больше 1000 символов?

Support Денис · 17 дек 2018

Здравствуйте

Support сказал(а): ↑

[% FOREACH text IN texts; texts.${loop.index}.text.length > 1000 ? texts.${loop.index}.text _ "\n" : ''; END %]
Нажмите, чтобы раскрыть...

Вот вариант где пишется результат, который больше 1000 символов

creck · 14 май 2021

Скажите пожалуйста, а как сделать тоже самое, только что бы брало с тегами?

Support Ilia · 16 май 2021

creck сказал(а): ↑

Скажите пожалуйста, а как сделать тоже самое, только что бы брало с тегами?
Нажмите, чтобы раскрыть...

Парсер HTML::TextExtractor автоматически чистит HTML теги

creck · 18 май 2021

Support Ilia сказал(а): ↑

Парсер HTML::TextExtractor автоматически чистит HTML теги
Нажмите, чтобы раскрыть...

А каким парсером можно сделать подобное, но что бы остались теги?

Support Ilia · 19 май 2021

creck сказал(а): ↑

А каким парсером можно сделать подобное, но что бы остались теги?
Нажмите, чтобы раскрыть...

Смысл HTML::TextExtractor чтобы текст собирать. Если нужны и теги, то это другой парсер совсем нужно делать

Support Ilia · 19 май 2021

creck сказал(а): ↑

А каким парсером можно сделать подобное, но что бы остались теги?
Нажмите, чтобы раскрыть...

Вы можете использовать Net::HTTP + регулярки, например как получить все что в тегах <p>:

binbash · 21 июл 2021

Support Ilia сказал(а): ↑

Смысл HTML::TextExtractor чтобы текст собирать. Если нужны и теги, то это другой парсер совсем нужно делать
Нажмите, чтобы раскрыть...

А какой алгоритм у ТекстЭктрактора? Это какая-то регулярка, которая вытягивает текст, а потом чистит хтмл? Или вначале режется хтмл, а потом собираются куски длинной больше Х символов?

Возникла необходимость собирать статьи по урлам с разных сайтов, так вот а-парсер справляется весьма неплохо, собирает почти без мусора, но режет весь хтмл, а мне нужно чтобы картинки, заголовки и видео оставалось в контенте. Можно ли как-то использовать алгоритм сбора из текст-экстрактора? Но не фиьлтровать определеные HTML теги в тексте?

Support Ilia · 21 июл 2021

binbash сказал(а): ↑

А какой алгоритм у ТекстЭктрактора? Это какая-то регулярка, которая вытягивает текст, а потом чистит хтмл? Или вначале режется хтмл, а потом собираются куски длинной больше Х символов?

Возникла необходимость собирать статьи по урлам с разных сайтов, так вот а-парсер справляется весьма неплохо, собирает почти без мусора, но режет весь хтмл, а мне нужно чтобы картинки, заголовки и видео оставалось в контенте. Можно ли как-то использовать алгоритм сбора из текст-экстрактора? Но не фиьлтровать определеные HTML теги в тексте?
Нажмите, чтобы раскрыть...

Там сложный алгоритм, и я не могу его рассказать. Алгоритм сбора из текст-экстрактора нельзя использовать, для вашей задачи нужно писать отдельный парсер который будет работать по нужной вам логике

Как спарсить статьи с заданного списка сайтов 1.0

katim A-Parser Pro License
A-Parser Pro

Support Administrator
Команда форума A-Parser Enterprise

katim A-Parser Pro License
A-Parser Pro

element.4seo New Member

element.4seo New Member

Support Administrator
Команда форума A-Parser Enterprise

element.4seo New Member

Support Administrator
Команда форума A-Parser Enterprise

element.4seo New Member

aliasfox A-Parser Pro License
A-Parser Pro

Support Administrator
Команда форума A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

binbash A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Как спарсить статьи с заданного списка сайтов 1.0

katim A-Parser Pro License A-Parser Pro

Support Administrator Команда форума A-Parser Enterprise

katim A-Parser Pro License A-Parser Pro

element.4seo New Member

element.4seo New Member

Support Administrator Команда форума A-Parser Enterprise

element.4seo New Member

Support Administrator Команда форума A-Parser Enterprise

element.4seo New Member

aliasfox A-Parser Pro License A-Parser Pro

Support Administrator Команда форума A-Parser Enterprise

creck A-Parser Enterprise License A-Parser Enterprise

Support Денис A-Parser Enterprise License A-Parser Enterprise

creck A-Parser Enterprise License A-Parser Enterprise

Support Ilia Moderator Команда форума A-Parser Enterprise

creck A-Parser Enterprise License A-Parser Enterprise

Support Ilia Moderator Команда форума A-Parser Enterprise

Support Ilia Moderator Команда форума A-Parser Enterprise

binbash A-Parser Enterprise License A-Parser Enterprise

Support Ilia Moderator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

katim A-Parser Pro License
A-Parser Pro

Support Administrator
Команда форума A-Parser Enterprise

katim A-Parser Pro License
A-Parser Pro

Support Administrator
Команда форума A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

aliasfox A-Parser Pro License
A-Parser Pro

Support Administrator
Команда форума A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

creck A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise

binbash A-Parser Enterprise License
A-Parser Enterprise

Support Ilia Moderator
Команда форума A-Parser Enterprise