Парсер JS::TextFromSE 2.0

Support · 11 Янв 2019

Пользователь Support обновил ресурс JS::TextFromSE новой записью:

Обновление 1.3.0

Парсер Гугла заменен на SE::Google::Modern

shmell · 30 Окт 2019

А можно здесь

if(response.info.success) {
results.text = response.texts.join("\n");
this.logger.put(`${set.query} - ${response.texts.length} blocks, ${results.text.length} chars`);
results.success = 1;
}

перед сбором массива в строку обработать его регулярками?
response.texts.forEach(); и по всем элементам пройтись как-то регуляркой.
Подскажите если можно и как несколькими последовательно.

Support Alexander · 31 Окт 2019

Можно, для перебора массива используйте map.

Код:

let newTexts = response.texts.map(elem => {
    return elem.match(/.../)[1].replace(/.../, '...').replace(/.../, '...');  // обработка регулярками
});
results.text = newTexts.join("\n");

shmell · 31 Окт 2019

elem.match(/.../)[1] а тут я так понимаю он будет на что-то проверять, или это и есть все что угодно?
Почему-то не заводится=(
И
replace(/.../
в кавычки брать не надо?
replace("/.../"

Support · 31 Окт 2019

shmell сказал(а):
elem.match(/.../)[1] а тут я так понимаю он будет на что-то проверять, или это и есть все что угодно?

.match .replace - это функции JavaScript, о них вы можете более детально почитать на соответствующих ресурсах, например тут. Они показаны для примера, а троеточие тоже указывает на то, что вы можете там написать любые регулярки и данные.
Пример выше демонстрирует как перебрать блоки в цикле, сделать с ними какие-то действия, сформировать новый массив и вывести в виде одной строки. Т.е. то, о чем вы спрашивали выше.

shmell · 31 Окт 2019

Я наверно неправильно спросил

let newTexts = response.texts.map(elem => {
return elem.replace(/a/, '111').replace(/b/, '222').replace(/c/, '333'); // обработка регулярками
});

меня устроит без предварительной проверки на вхождение, а безусловный replace вполне подойдет.
Спасибо.

catolseo · 7 Июл 2020

Этот парсер актуален? А то переопределения, как указано в инструкции вообще не отображаются.

kaznokrad · 31 Авг 2021

Парсер что то криво стал работать, пришлось заменить Google Modern на Google, чистка текста по regex не работает, через ResultBuilder регекс
(\b[A-Z](?:[\w,;:’&'"-\\$]+? ){3,}\w{2,}[.!?]) или (\b[A-ZА-Я](?:\w+[,;:&’'-]? ){3,}\w{3,}[.!?:]) или (\b[A-ZА-Я](?:[,;:-—’()\w]+? ){3,}\w{2,}[.!?])

Регексы отрабатывают отлично https://regex101.com/r/CzCK3E/2 но на выходе мусор

Support · 31 Авг 2021

kaznokrad сказал(а):
пришлось заменить Google Modern на Google

SE::Google::Modern и SE::Google - уже довольно давно один и тот же парсер и никак не отличаются. Поэтому замена одного на другой никак не может влиять на работу данного парсера.

kaznokrad сказал(а):
Парсер что то криво стал работать

Данный парсер никак не может сломаться или начать как-то не так работать со временем. Он всего лишь объединяет два стандартных парсера, передавая результаты одного на вход другому.

kaznokrad сказал(а):
чистка текста по regex не работает

На скриншоте видно, что вы Конструктором результатов из переменной $text пытаетесь извлечь данные в массив $text. В этом заключается первая ошибка, массив лучше назвать как-то иначе. И в результат вы выводите переменную $text, а не новый массив - это вторая ошибка.

btr · 19 Фев 2022

Можно актуализировать пресет? Хотелось бы увидеть в совокупности с HTML::ArticleExtractor

Support · 19 Фев 2022

btr сказал(а):
Хотелось бы увидеть в совокупности с HTML::ArticleExtractor

Просто замените в коде парсера TextExtractor на ArticleExcractor и пропишите с каких переменных брать результат.

btr · 19 Фев 2022

Вроде так и сделал:

Код:

class Parser {
    constructor() {
        this.defaultConf = {
            version: '1.3.13',
            results: {
                flat: [
                    ['key', 'Keyword'],
                    ['link', 'Link'],
                    ['text', 'Text']
                ]
            },
            results_format: "$key - $link\\n$text\\n\\n",
            search_engine: 'SE::Google',
            SE_Google_preset: 'default',
            SE_Yandex_preset: 'default',
            HTML_ArticleExtractor_preset: 'default'
        };
        this.editableConf = [
            ['SE_Google_preset', ['combobox', 'SE::Google preset']],
            ['SE_Yandex_preset', ['combobox', 'SE::Yandex preset']],
            ['HTML_ArticleExtractor_preset', ['combobox', 'HTML::ArticleExtractor preset']],
            ['search_engine', ['combobox', 'Search engine', ['SE::Google', 'Google'], ['SE::Yandex', 'Yandex']]]
        ];
    }

     
    *parse(set, results) {
        return yield* set.lvl == 0 ? this.parseSE(set, results) : this.parseText(set, results);
    }
   
    *parseSE(set, results) {
        this.logger.put(`Use ${this.conf.search_engine}`);
        let SEresp = yield this.parser.request(
            this.conf.search_engine,
            this.conf[this.conf.search_engine.replace(/::/g, '_') + '_preset'],
            set.query
        );

        if(SEresp.info.success) {
            let link_count = 0;
            let step = this.conf.search_engine == 'SE::Google' ? 3 : 6;
            for (let i = 0; i < SEresp.serp.length; i += step) {
                this.query.add(SEresp.serp[i]);
                link_count += 1;
            }
            this.logger.put(`Added ${link_count} links`);
            results.success = 1;
            results.SKIP = 1;
            return results;
        } else {
            this.logger.put(`Error scraping ${this.conf.search_engine}`);
            results.success = 0;
            return results;
        }
    }

    *parseText(set, results) {
        this.logger.put(`Scraping text from ${set.query}`);
        let response = yield this.parser.request('HTML::ArticleExtractor', this.conf.HTML_ArticleExtractor_preset, set.query);
        results.key = set.first;
        results.link = set.query;
        if(response.info.success) {
            //results.text = response.texts.join("\n");
            results.text = response.content;
            this.logger.put(`${set.query} - ${response.texts.length} blocks, ${results.text.length} chars`);
            results.success = 1;
        } else {
            this.logger.put(`${set.query} - error scraping text`);
            results.success = 0;
        }
        return results;
    }
}

но в результатах какая то ерунда:

Support · 19 Фев 2022

Вы на 0-м уровне подставляете в запросы все подряд из-за неверного шага (переменная step). В

SE::Google сейчас каждый элемент $serp состоит из 4-х переменных, а не из 3-х, как указано у вас в коде.
А еще лучше использовать флаг (https://a-parser.com/docs/javascript-parsers/class-methods-v1#yield-thisparserrequest)

Код:

resultArraysWithObjects: 1

btr · 20 Фев 2022

Support сказал(а):
Вы на 0-м уровне подставляете в запросы все подряд из-за неверного шага (переменная step). В SE::Google сейчас каждый элемент $serp состоит из 4-х переменных, а не из 3-х, как указано у вас в коде.
А еще лучше использовать флаг (https://a-parser.com/docs/javascript-parsers/class-methods-v1#yield-thisparserrequest)

Код:

resultArraysWithObjects: 1

Я только парсер поменял в исходном коде, поэтому и попросил актуализировать его, тк совсем не разбираюсь в JS.

Support · 22 Фев 2022

Пользователь Support обновил ресурс JS::TextFromSE новой записью:

Обновление 1.4.0

Добавлена опция выбора текстового парсера (ArticleExtractor/TextExtractor)

SE::Google::Modern заменен на SE::Google

Небольшая оптимизация парсера

Узнать больше об этом обновлении...

kaznokrad · 27 Апр 2023

Перестал работать парсер

Support · 27 Апр 2023

kaznokrad сказал(а):
Перестал работать парсер

Этот парсер никак не может перестать работать, несколькими сообщениями выше описано почему.

Support сказал(а):
Данный парсер никак не может сломаться или начать как-то не так работать со временем. Он всего лишь объединяет два стандартных парсера, передавая результаты одного на вход другому.

Support Ilia · 12 Апр 2024

Пользователь Support Ilia обновил ресурс JS::TextFromSE новой записью:

Обновление 2.0

Парсер переписан на JavaScript API v2

Узнать больше об этом обновлении...

Парсер JS::TextFromSE 2.0

Administrator

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

New Member

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

Moderator

О нас

Быстрая навигация

Соцсети

Поддержка