Алгоритм текстовой классификации контента социальной сети "ВКонтакте" для оценки качества жизни населения

Эндаумент фонд ТГУ!
Впиши своё имя в историю университета
- Сделать пожертвование -

"обучающийся регион" | 2021 | Басина, Полина Александровна | статьи в сборниках

Add to Quick Collection

Description	Size	Format
Алгоритм текстовой классификации контента социальной сети "ВКонтакте" для оценки качества жизни населения	428 KB	Adobe Acrobat PDF	View Details	Download

Title: Алгоритм текстовой классификации контента социальной сети "ВКонтакте" для оценки качества жизни населения
Title: Text classification algorithm content of the social network "VKontakte" for assessing the quality of life of the population
Creator: Гойко, Вячеслав Леонидович
Creator: Басина, Полина Александровна
Creator: Бакулин, Вячеслав Викторович
Subject: качество жизни
цифровые следы
ВКонтакте, социальная сеть
Date: 2021
Description: На сегодняшний день социальные сети являются повседневным инструментом пользователей для выражения своих мнений и предпочтений; они активно реагируют на интересный для них контент, проявляя различные реакции (цифровые следы), делясь им с другими пользователями. В РФ социальная сеть «ВКонтакте» по разным рейтингам 2021 г. входит в ТОП-3 социальных сетей. Цифровые следы, создаваемые в социальной сети, являются ценным источником для исследования качества жизни «цифрового населения» (часть населения, активно использующая социальные сети). В качестве преимуществ источника следует отметить оперативный сбор и детализацию контента; свободное и открытое выражение своего мнения; разнообразие суждений; достижение высокой точности оценок для «цифрового населения» посредством больших объемов данных. Для получения репрезентативных данных, позволяющих учесть территориальные особенности, отобраны региональные сообщества, обладающие одним из следующих свойств: не менее 50% подписчиков можно отнести к представителям одного региона; в сообществе есть информационные посты о социальной, экономической и политической сфере. Цифровые следы социальной сети представляют собой большие данные, исследовать которые традиционными методами невозможно. Таким образом, возникает необходимость разработки алгоритма машинного обучения, позволяющего автоматически классифицировать тестовые публикации. Учитывая специфику постов «ВКонтакте», следует решить две задачи: определение релевантных сообщений (очистка от «мусора») и категоризация полученных текстов. В качестве категорий качества жизни выступили: «образование», «здравоохранение», «безопасность», «социальное обеспечение», «работа органов власти», «экология» и «доступность товаров и услуг». В рамках работы мы сфокусировали внимание на различных алгоритмах классификации неструктурированных текстовых сообщений – от базовых связок до современных решений с применением нейросетевой архитектуры трансформеров. Для обучения был сформирован набор размеченных данных – 84 тыс. сообщений. По результатам экспериментов нами был выбран алгоритм Rubert-tiny из-за высокой скорости обучения и классификации; в ходе настройки параметров модели была достигнута точность F1 – 0.545. Вычислительные эксперименты проводились с использованием скриптов на языке Python.

Relationships: Show Relationship Browser for this Object
collection(s): Научное управление
Identifier: koha:000897661
https://vital.lib.tsu.ru/vital/access/manager/Repository/koha:000897661
Type: статьи в сборниках
Source: Открытые данные - 2021 : материалы форума, Севастополь, 30 сентября - 2 октября 2021 г.. Томск, 2021. С. 41-53
Language: rus

413 Visitors

282 Hits

156 Downloads

Preview

Научное управление Алгоритм текстовой классификации контента социальной сети "ВКонтакте" для оценки качества жизни населения