Веб-платформалардағы Қазақстандық блогерлер пікірлерінің көңіл-күйін талдау
Сапархан Диана Бекарысқызы
Оқытушы, М.Өтебаев атындағы жоғары жаңа технологиялар колледжі, Шымкент қ.
Saparkhan.diana@bk.ru 8-7020943643
Аннотация: Ғаламтордың пайда болуымен және дамуымен сан түрлі веб-платформалар пайда бола бастады, олардың саны күн сайын өсіп келеді. Белгілі бір тақырыптар бойынша әртүрлі сайттар мен қосымшалар бар. Кез келген адам өзіне қажетті ақпаратты таба алады. Бүгінгі күні Интернетте көптеген жақсы жобаланған, түрлі-түсті және тартымды веб-платформалар бар. Көлемі мен функционалдық мүмкіндіктеріне қарай веб-платформаларды бөлуге болады: жарнамалық сайт, компания сайты, интернет-дүкен, әлеуметтік желілер және интернет порталдар және т.б. Соңғы жылдары көптеген веб-платформалардың арасында әлеуметтік желілер дамып, танымалдылығы артуда.
Әлеуметтік желі – бұл веб-сайт, ортақ мүдделері бар адамдарды біріктіруге арналған, пайдаланушылардың өздері туралы ақпаратты өз бетінше жариялау және бөлісу және бір-бірімен байланысу, сондай-ақ фотосуреттерді, бейнелерді және басқа да медиафайлдарды жүктеуге арналған веб платформа.Қазіргі ақпараттар ғасырында әлеуметтік желілер өміріміздің ажырамас бөлігіне айналды. Әлеуметтік желілер қолданушыларға өз ойымен, пікірімен және көзқарастарымен бүкіл әлеммен бөлісуге және өзінара алмасуға мүмкіндік береді.
Мәтіннің көңіл-күй реңкін талдау (ағылш. Sentiment Analysis) - мәтіндік құжаттарда пікірлерді іздеуге және олардың көңіл-күй реңкін анықтауға бағытталған компьютерлік лингвистиканың әдістері. Сондай-ақ, ғылыми әдебиеттерде бұл саланы көбінесе "мәтіндегі пікірлерді іздеу" термині деп атайды (ағылш. Opinion Mining). Бұл екі термин де, жалпы алғанда, бір зерттеу саласын білдіреді. Алайда, индустриалды мәселелерді шешуде " көңіл-күй реңкін талдау" термині қолданылады, ал ғылыми әдебиеттерде олар бірдей болып саналады. Бұл жұмыста екі термин де баламалы болып саналады.
Көңіл-күй реңкін талдауды жіктеудегі машиналық оқыту алгоритмдері Көңіл-күй талдау тәсілін таңдағанда, шешім қабылдауға әсер ететін бірнеше факторлар бар, мысалы, деректердің қол жетімділігі, модельдің өлшемі мен күрделілігі, жұмыс жылдамдығына қойылатын талаптар және болжау дәлдігі. Бұл жұмыста келесі алгоритмдер таңдалды: аңғал Байес алгоритмі (Naïve Bayes), тірек векторлар әдісі (Support Vector Machines, SVM) және Random Forest алгоритмі. 1. Аңғал Байес (Naïve Bayes) алгоритм: - Бұл Байес ықтималдығы принципіне негізделген қарапайым және тиімді алгоритм.
- Аңғал Байес классификаторын оқыту үшін белгіленген деректердің аз мөлшері қажет. - Ол мәтіндік деректермен жақсы жұмыс істейді, өйткені ол белгілі бір клас тарда сөздердің немесе сөз тіркестерінің пайда болу ықтималдығын ескереді. - Ол жылдам жұмыс істей алады және кейбір басқа машиналық оқыту алгоритмдеріне қарағанда аз ресурстарды қажет етеді. 2. Тірек векторлар әдісі (Support Vector Machines, SVM) : - SVM - әртүрлі кластағы деректерді бөлу үшін гиперплан құратын қуатты жіктеу алгоритмі. - Ол сызықтық бөлінетін деректермен жақсы жұмыс істейді, сонымен қатар сызықтық емес деректермен жұмыс істеу үшін ядроларды қолдана алады. - SVM жақсы жалпылау қабілетіне ие және тіпті аз деректермен де жұмыс істей алады. - Дегенмен, ол үлкен деректер жиынында оқуда баяу болуы мүмкін. 3. Random Forest алгоритмі: - Random Forest-бірнеше шешуші ағаштарды біріктіретін ансамбльдік машиналық оқыту алгоритмі. - Бұл қайта оқыту мәселесін шешуге мүмкіндік береді және жалпылау қабілеті жақсы. - Random Forest сандық және категориялық белгілерді өңдей алады және үлкен деректер жиынтығымен жақсы жұмыс істейді. - Ол сондай-ақ белгілердің маңыздылығын қамтамасыз етеді, бұл қандай белгілердің жіктеуге ең көп үлес қосатынын түсінуге мүмкіндік береді.
Веб-платформа негізінде Instagram желісі тандалды. Қазіргі таңда Қазақстанда ең танымал әлеуметтік желінің бірі болып саналады. Instagram бағдарламаушыларға платформа ұсынатын белгілі бір деректер мен мүмкіндіктерге қол жеткізуге мүмкіндік беретін API (Application Programming Interface) ұсынады. Бұл API арқылы пайдаланушылар, олардың профильдері, жазбалары, мақалалары, хэштегтері, орналасқан жері және Instagram-ға қатысты басқа да маңызды аспектілер туралы ақпарат алуға мүмкіндік береді.Деректер жиынтығын жинау процесін 1-суреттегі сызбадан көре аламыз.

1-сурет.Деректерді жинау
Нәтижесінде 6129 жолдан және 893 бағаннан тұратын мәліметтер жиынтығы алынды. Бұл бағандардың көпшілігі бос, мағынасы жоқ және құрылымдалмаған деректер болып табылады, мысалы, пікірлер саны, пікірлердегі лүпілдер саны, бірінші пікірге бірінші жауап, екінші жауап секілді деректер. Бастапқы деректер жиынтығының өлшемін, яғни жолдар мен бағандар санын 2-суреттен көре аламыз. Бастапқы деректер жиынтығын 3-суретте көруге болады.

2-сурет.Деректер жиының өлшемі
Деректер жиынтығын тазарту-бұл деректерді одан әрі талдау мен модельдеуге дайындау үшін оны алдын-ала өңдеудегі маңызды қадам. Мұнда қажет емес бағандарды жоюды, бос жолдарды жоюды, қажет емес таңбаларды, тыныс белгілерін, эмодзилерді және stop-сөздерді жоюды қамтитын деректер жиынын тазалау процесі іске асады.
Өңделген деректер қоры 6129 жол мен 3 бағаннан тұрады. Бұл деректер жиынында үш негізгі атрибут бар, олардың әрқайсысы посттардың эмоционалды реңкін талдауда және түсінуде маңызды рөл атқарады.Олар: 1. Instagram жазбалары: Бұл деректер жиынтығының әрбір элементі Instagram платформасында орналастырылған жеке жазба болып табылады. 2. Жазба авторының аккаунт атауы: Бұл атрибут жазба жарияланған Instagram жазба авторының аккаунт атауын көрсетеді. Аккаунт атауы-бұл мазмұнды және деректерді одан әрі талдау және сегменттеу мүмкіндіктерін анықтауға мүмкіндік беретін маңызды мәтін-мәндік элемент. 3. Эмоцияның атауы: Бұл атрибут жазбаның эмоционалды реңкін анықтайды. Эмоцияны "бақыт", "қайғы", "ашу", "таңдану" және т.б. сияқты әр түрлі категориялар арқылы білдіруге болады. эмоцияның атауы мәтінде қандай эмоция басым екенін анықтауға мүмкіндік беретін табиғи тілді немесе компьютерлік көруді өңдеу әдістерін қолдана отырып, посттың мазмұнын талдаудың нәтижесі болып табылады. Деректер жиынтығында «Бейтарап» көңіл-күй басым келеді. Оның пайыздық мөлшерлемесі 65,39%. Кейін «Оң» көңіл-күй басым келеді, оның пайыздық мөлшерлемесі 30,12%. Ең аз көніл-күй «Теріс» көңіл-күйі болып табылады. Оның пайыздық мөлшерлемесі 4,49%. Деректер жиынтығындағы көңіл-күй реңкінің пайыздық мөлшерлемесі 14-суретте көрсетілген.

3-сурет. Деректер жиынтығындағы көңіл-күй реңкінің пайыздық мөлшерлемесі
Машиналық оқыту нәтижелерін салыстырмалы талдау әртүрлі жіктеу алгоритм терінің тиімділігін бағалауға мүмкіндік береді. Бұл жағдайда үш алгоритмге арналған модельдердің дәлдігі - Аңғал Байес классификаторы, тірек векторлары алгоритмі және Random Forest алгоритмі - сәйкесінше 0.7910772, 0.8650707 және 0.8819368 құрайды.
Осы салыстырудың негізгі нәтижелерін қарастырайық:
- Random Forest алгоритмі аңғал Байес классификаторымен (0.7910772)және тірек векторлық алгоритімен (0.8650707) салыстырғанда ең жоғары дәлдікті (0.8819368) көрсетеді.Бұл Random Forest моделі жіктеу тапсырмасын жақсырақ орындайтынын және дәлірек болжамдарды көрсететінін білдіреді.
- Тірек векторлар алгоритміде жоғары дәлдікті көрсетеді (0.8650707) және көңіл-күй реңкін талдаудың тиімді алгоритмі болып табылады. Ол көпөлшемді кеңістікте кластарды бөлудің тамаша қабілетін көрсетеді және әсіресе күрделі және сызықтық емес тапсырмаларды орындау кезінде пайдалы болуы мүмкін.
- Аңғал Байес классификаторы басқа алгоритм термен салыстырғанда дәлдігі төмен (0.7910772) болса да, көңіл-күй реңкін талдау үшін пайдалы құрал бола алады. Ол қарапайым және жылдам іске асыруға ие, сонымен қатар деректер жеткіліксіз болған кезде немесе есептеу ресурстары шектеулі болған кезде тиімді болуы мүмкін. Салыстыра келе, нәтижелерді салыстыру Random Forest алгоритмі берілген көңіл-күй талдау тапсырмасы үшін ең дәл болып табылады деген қорытынды жасауға мүмкіндік береді.

1-кесте. Машиналық оқыту алгоритмдерінің нәтижелерін салыстыру
Қорытынды
Блогерлердің жазбаларының жалпы көңіл-күй реңкін талдауға және веб платформалардан мәліметтер жинауға байланысты мақалалар мен жобалар зерттелді. Өзекті әдістер мен тәсілдерге шолу жасалды, сондай-ақ сентименталды талдауға байланысты қолданыстағы жобалар зерттелді. Блогерлер белсенді түрде жазба жариялайтын веб-платформа Instagram таңдалды, сондай-ақ жазбалары талданатын танымал блогерлер анықталды.
Бұл талдау үшін жеткілікті деректер жинауға мүмкіндік берді. Таңдалған веб платформадан деректерді алу үшін тиісті құралдар мен технологиялар қолданылды. Деректерді алдын ала өңдеу және блогерлердің пікірлерін нәтижелерді талдауға әсер етуі мүмкін қажетсіз белгілерден, сілтемелерден және де басқа символдардан тазарту жүргізілді. Блогерлердің жалпы көңіл-күй реңкін анықтау және жіктеу моделі құрылды. Жіктеу үшін машиналық оқыту тәсілдері қолданылды. Мысалы, Аңғал Байес алгоритмі, тірек векторлар алгоритмі және Random Forest алгоритмі. Нәтижелерді салыстыру барысында Random Forest алгоритмі көңіл-күй реңкін болжаудың ең жоғары дәлдігін көрсетті.
Нәтижелерді визуализациялау үшін интерактивті веб - қосымшаларды әзірлеу үшін Python бағдарламалау тіліндегі Dash фреймворкы қолданылды. Бұл сарапшыларға, маркетологтарға және зерттеушілерге пайдалы болуы мүмкін. Жұмыста пайдаланушыға көңіл-күй реңкін талдау нәтижелерін визуализациялауға және мәтіннің белгілі бір класқа жату ықтималдығы туралы ақпарат алуға мүмкіндік беретін DASH фреймворкында веб-қосымша құрылды. Осылайша, жүргізілген зерттеу мәтіндік деректердің көңіл-күй реңкін талдау үшін көңіл-күй реңкін талдау алгоритмдерін қолданудың тиімділігін растайды.
Қолданылған әдебиеттер тізімі
1 O. L. Dictionaries. emotion. [Online]. [Электрондық ресурс.] URL:https://en.oxforddictionaries. com/definition/emotion.
2 A.P. Association, Glossary of psychological terms. [Online]. [Электрондық ресурс] URL: http:// www.apa.org/research/action/glossary.aspx?tab=5.
3 M.D. Munezero, C.S. Montero, E. Sutinen, J. Pajunen, Are they different Affect, feeling, emotion, sentiment, and opinion detection in text, IEEE Trans. Affect. Comput. 5 (2) (April 2014) 101–111.
4 "Sentiment analysis in social media" (Pang et al., 2008). [Электрондық ресурс.] URL: (PDF) Sentiment Analysis in Social Media (researchgate.net) ]
5 "Opinion mining and sentiment analysis" (Liu, 2012). [Электрондық ресурс.] URL:Sentiment Analysis and Opinion Mining (researchgate.net)
6 Shelke N., Deshpande S., and Thakare V. ‗‗Domain independent approach for aspect-oriented sentiment analysis for product reviews‘‘ in Proc. 5th Int. Conf. Frontiers Intell. Comput., Theory Appl., Singapore, Mar. 2017, pp. 651–659.
7 Sharma U., Datta R.K., and Pabreja K. ‗‗Sentiment analysis and prediction of selection results 2018‘‘ in Social Networking and Computational Intelligence, R.K. Shukla, J. Agrawal, S. Sharma, N.S. Chaudhari, and K.K. Shukla, Eds. Singapore: Springer, 2020, pp. 727–739. [Электрондық ресурс.] URL: Sentiment Analysis and Prediction of Election Results 2018 (researchgate.net)
8 Iacus S., Porro G., Salini S., and Siletti E., ‗‗An Italian composite subjective well-being index: The voice of Twitter users from 2012 to 2017,‘‘ Social Indicators Res., vol. 149, pp. 1–19, 2020. [Электрондық ресурс.] URL: An Italian
жүктеу мүмкіндігіне ие боласыз
Бұл материал сайт қолданушысы жариялаған. Материалдың ішінде жазылған барлық ақпаратқа жауапкершілікті жариялаған қолданушы жауап береді. Ұстаз тілегі тек ақпаратты таратуға қолдау көрсетеді. Егер материал сіздің авторлық құқығыңызды бұзған болса немесе басқа да себептермен сайттан өшіру керек деп ойласаңыз осында жазыңыз
"Веб-платформалардағы Қазақстандық блогерлер пікірлерінің көңіл-күйін талдау" тақырыбында мақала
"Веб-платформалардағы Қазақстандық блогерлер пікірлерінің көңіл-күйін талдау" тақырыбында мақала
Веб-платформалардағы Қазақстандық блогерлер пікірлерінің көңіл-күйін талдау
Сапархан Диана Бекарысқызы
Оқытушы, М.Өтебаев атындағы жоғары жаңа технологиялар колледжі, Шымкент қ.
Saparkhan.diana@bk.ru 8-7020943643
Аннотация: Ғаламтордың пайда болуымен және дамуымен сан түрлі веб-платформалар пайда бола бастады, олардың саны күн сайын өсіп келеді. Белгілі бір тақырыптар бойынша әртүрлі сайттар мен қосымшалар бар. Кез келген адам өзіне қажетті ақпаратты таба алады. Бүгінгі күні Интернетте көптеген жақсы жобаланған, түрлі-түсті және тартымды веб-платформалар бар. Көлемі мен функционалдық мүмкіндіктеріне қарай веб-платформаларды бөлуге болады: жарнамалық сайт, компания сайты, интернет-дүкен, әлеуметтік желілер және интернет порталдар және т.б. Соңғы жылдары көптеген веб-платформалардың арасында әлеуметтік желілер дамып, танымалдылығы артуда.
Әлеуметтік желі – бұл веб-сайт, ортақ мүдделері бар адамдарды біріктіруге арналған, пайдаланушылардың өздері туралы ақпаратты өз бетінше жариялау және бөлісу және бір-бірімен байланысу, сондай-ақ фотосуреттерді, бейнелерді және басқа да медиафайлдарды жүктеуге арналған веб платформа.Қазіргі ақпараттар ғасырында әлеуметтік желілер өміріміздің ажырамас бөлігіне айналды. Әлеуметтік желілер қолданушыларға өз ойымен, пікірімен және көзқарастарымен бүкіл әлеммен бөлісуге және өзінара алмасуға мүмкіндік береді.
Мәтіннің көңіл-күй реңкін талдау (ағылш. Sentiment Analysis) - мәтіндік құжаттарда пікірлерді іздеуге және олардың көңіл-күй реңкін анықтауға бағытталған компьютерлік лингвистиканың әдістері. Сондай-ақ, ғылыми әдебиеттерде бұл саланы көбінесе "мәтіндегі пікірлерді іздеу" термині деп атайды (ағылш. Opinion Mining). Бұл екі термин де, жалпы алғанда, бір зерттеу саласын білдіреді. Алайда, индустриалды мәселелерді шешуде " көңіл-күй реңкін талдау" термині қолданылады, ал ғылыми әдебиеттерде олар бірдей болып саналады. Бұл жұмыста екі термин де баламалы болып саналады.
Көңіл-күй реңкін талдауды жіктеудегі машиналық оқыту алгоритмдері Көңіл-күй талдау тәсілін таңдағанда, шешім қабылдауға әсер ететін бірнеше факторлар бар, мысалы, деректердің қол жетімділігі, модельдің өлшемі мен күрделілігі, жұмыс жылдамдығына қойылатын талаптар және болжау дәлдігі. Бұл жұмыста келесі алгоритмдер таңдалды: аңғал Байес алгоритмі (Naïve Bayes), тірек векторлар әдісі (Support Vector Machines, SVM) және Random Forest алгоритмі. 1. Аңғал Байес (Naïve Bayes) алгоритм: - Бұл Байес ықтималдығы принципіне негізделген қарапайым және тиімді алгоритм.
- Аңғал Байес классификаторын оқыту үшін белгіленген деректердің аз мөлшері қажет. - Ол мәтіндік деректермен жақсы жұмыс істейді, өйткені ол белгілі бір клас тарда сөздердің немесе сөз тіркестерінің пайда болу ықтималдығын ескереді. - Ол жылдам жұмыс істей алады және кейбір басқа машиналық оқыту алгоритмдеріне қарағанда аз ресурстарды қажет етеді. 2. Тірек векторлар әдісі (Support Vector Machines, SVM) : - SVM - әртүрлі кластағы деректерді бөлу үшін гиперплан құратын қуатты жіктеу алгоритмі. - Ол сызықтық бөлінетін деректермен жақсы жұмыс істейді, сонымен қатар сызықтық емес деректермен жұмыс істеу үшін ядроларды қолдана алады. - SVM жақсы жалпылау қабілетіне ие және тіпті аз деректермен де жұмыс істей алады. - Дегенмен, ол үлкен деректер жиынында оқуда баяу болуы мүмкін. 3. Random Forest алгоритмі: - Random Forest-бірнеше шешуші ағаштарды біріктіретін ансамбльдік машиналық оқыту алгоритмі. - Бұл қайта оқыту мәселесін шешуге мүмкіндік береді және жалпылау қабілеті жақсы. - Random Forest сандық және категориялық белгілерді өңдей алады және үлкен деректер жиынтығымен жақсы жұмыс істейді. - Ол сондай-ақ белгілердің маңыздылығын қамтамасыз етеді, бұл қандай белгілердің жіктеуге ең көп үлес қосатынын түсінуге мүмкіндік береді.
Веб-платформа негізінде Instagram желісі тандалды. Қазіргі таңда Қазақстанда ең танымал әлеуметтік желінің бірі болып саналады. Instagram бағдарламаушыларға платформа ұсынатын белгілі бір деректер мен мүмкіндіктерге қол жеткізуге мүмкіндік беретін API (Application Programming Interface) ұсынады. Бұл API арқылы пайдаланушылар, олардың профильдері, жазбалары, мақалалары, хэштегтері, орналасқан жері және Instagram-ға қатысты басқа да маңызды аспектілер туралы ақпарат алуға мүмкіндік береді.Деректер жиынтығын жинау процесін 1-суреттегі сызбадан көре аламыз.

1-сурет.Деректерді жинау
Нәтижесінде 6129 жолдан және 893 бағаннан тұратын мәліметтер жиынтығы алынды. Бұл бағандардың көпшілігі бос, мағынасы жоқ және құрылымдалмаған деректер болып табылады, мысалы, пікірлер саны, пікірлердегі лүпілдер саны, бірінші пікірге бірінші жауап, екінші жауап секілді деректер. Бастапқы деректер жиынтығының өлшемін, яғни жолдар мен бағандар санын 2-суреттен көре аламыз. Бастапқы деректер жиынтығын 3-суретте көруге болады.

2-сурет.Деректер жиының өлшемі
Деректер жиынтығын тазарту-бұл деректерді одан әрі талдау мен модельдеуге дайындау үшін оны алдын-ала өңдеудегі маңызды қадам. Мұнда қажет емес бағандарды жоюды, бос жолдарды жоюды, қажет емес таңбаларды, тыныс белгілерін, эмодзилерді және stop-сөздерді жоюды қамтитын деректер жиынын тазалау процесі іске асады.
Өңделген деректер қоры 6129 жол мен 3 бағаннан тұрады. Бұл деректер жиынында үш негізгі атрибут бар, олардың әрқайсысы посттардың эмоционалды реңкін талдауда және түсінуде маңызды рөл атқарады.Олар: 1. Instagram жазбалары: Бұл деректер жиынтығының әрбір элементі Instagram платформасында орналастырылған жеке жазба болып табылады. 2. Жазба авторының аккаунт атауы: Бұл атрибут жазба жарияланған Instagram жазба авторының аккаунт атауын көрсетеді. Аккаунт атауы-бұл мазмұнды және деректерді одан әрі талдау және сегменттеу мүмкіндіктерін анықтауға мүмкіндік беретін маңызды мәтін-мәндік элемент. 3. Эмоцияның атауы: Бұл атрибут жазбаның эмоционалды реңкін анықтайды. Эмоцияны "бақыт", "қайғы", "ашу", "таңдану" және т.б. сияқты әр түрлі категориялар арқылы білдіруге болады. эмоцияның атауы мәтінде қандай эмоция басым екенін анықтауға мүмкіндік беретін табиғи тілді немесе компьютерлік көруді өңдеу әдістерін қолдана отырып, посттың мазмұнын талдаудың нәтижесі болып табылады. Деректер жиынтығында «Бейтарап» көңіл-күй басым келеді. Оның пайыздық мөлшерлемесі 65,39%. Кейін «Оң» көңіл-күй басым келеді, оның пайыздық мөлшерлемесі 30,12%. Ең аз көніл-күй «Теріс» көңіл-күйі болып табылады. Оның пайыздық мөлшерлемесі 4,49%. Деректер жиынтығындағы көңіл-күй реңкінің пайыздық мөлшерлемесі 14-суретте көрсетілген.

3-сурет. Деректер жиынтығындағы көңіл-күй реңкінің пайыздық мөлшерлемесі
Машиналық оқыту нәтижелерін салыстырмалы талдау әртүрлі жіктеу алгоритм терінің тиімділігін бағалауға мүмкіндік береді. Бұл жағдайда үш алгоритмге арналған модельдердің дәлдігі - Аңғал Байес классификаторы, тірек векторлары алгоритмі және Random Forest алгоритмі - сәйкесінше 0.7910772, 0.8650707 және 0.8819368 құрайды.
Осы салыстырудың негізгі нәтижелерін қарастырайық:
- Random Forest алгоритмі аңғал Байес классификаторымен (0.7910772)және тірек векторлық алгоритімен (0.8650707) салыстырғанда ең жоғары дәлдікті (0.8819368) көрсетеді.Бұл Random Forest моделі жіктеу тапсырмасын жақсырақ орындайтынын және дәлірек болжамдарды көрсететінін білдіреді.
- Тірек векторлар алгоритміде жоғары дәлдікті көрсетеді (0.8650707) және көңіл-күй реңкін талдаудың тиімді алгоритмі болып табылады. Ол көпөлшемді кеңістікте кластарды бөлудің тамаша қабілетін көрсетеді және әсіресе күрделі және сызықтық емес тапсырмаларды орындау кезінде пайдалы болуы мүмкін.
- Аңғал Байес классификаторы басқа алгоритм термен салыстырғанда дәлдігі төмен (0.7910772) болса да, көңіл-күй реңкін талдау үшін пайдалы құрал бола алады. Ол қарапайым және жылдам іске асыруға ие, сонымен қатар деректер жеткіліксіз болған кезде немесе есептеу ресурстары шектеулі болған кезде тиімді болуы мүмкін. Салыстыра келе, нәтижелерді салыстыру Random Forest алгоритмі берілген көңіл-күй талдау тапсырмасы үшін ең дәл болып табылады деген қорытынды жасауға мүмкіндік береді.

1-кесте. Машиналық оқыту алгоритмдерінің нәтижелерін салыстыру
Қорытынды
Блогерлердің жазбаларының жалпы көңіл-күй реңкін талдауға және веб платформалардан мәліметтер жинауға байланысты мақалалар мен жобалар зерттелді. Өзекті әдістер мен тәсілдерге шолу жасалды, сондай-ақ сентименталды талдауға байланысты қолданыстағы жобалар зерттелді. Блогерлер белсенді түрде жазба жариялайтын веб-платформа Instagram таңдалды, сондай-ақ жазбалары талданатын танымал блогерлер анықталды.
Бұл талдау үшін жеткілікті деректер жинауға мүмкіндік берді. Таңдалған веб платформадан деректерді алу үшін тиісті құралдар мен технологиялар қолданылды. Деректерді алдын ала өңдеу және блогерлердің пікірлерін нәтижелерді талдауға әсер етуі мүмкін қажетсіз белгілерден, сілтемелерден және де басқа символдардан тазарту жүргізілді. Блогерлердің жалпы көңіл-күй реңкін анықтау және жіктеу моделі құрылды. Жіктеу үшін машиналық оқыту тәсілдері қолданылды. Мысалы, Аңғал Байес алгоритмі, тірек векторлар алгоритмі және Random Forest алгоритмі. Нәтижелерді салыстыру барысында Random Forest алгоритмі көңіл-күй реңкін болжаудың ең жоғары дәлдігін көрсетті.
Нәтижелерді визуализациялау үшін интерактивті веб - қосымшаларды әзірлеу үшін Python бағдарламалау тіліндегі Dash фреймворкы қолданылды. Бұл сарапшыларға, маркетологтарға және зерттеушілерге пайдалы болуы мүмкін. Жұмыста пайдаланушыға көңіл-күй реңкін талдау нәтижелерін визуализациялауға және мәтіннің белгілі бір класқа жату ықтималдығы туралы ақпарат алуға мүмкіндік беретін DASH фреймворкында веб-қосымша құрылды. Осылайша, жүргізілген зерттеу мәтіндік деректердің көңіл-күй реңкін талдау үшін көңіл-күй реңкін талдау алгоритмдерін қолданудың тиімділігін растайды.
Қолданылған әдебиеттер тізімі
1 O. L. Dictionaries. emotion. [Online]. [Электрондық ресурс.] URL:https://en.oxforddictionaries. com/definition/emotion.
2 A.P. Association, Glossary of psychological terms. [Online]. [Электрондық ресурс] URL: http:// www.apa.org/research/action/glossary.aspx?tab=5.
3 M.D. Munezero, C.S. Montero, E. Sutinen, J. Pajunen, Are they different Affect, feeling, emotion, sentiment, and opinion detection in text, IEEE Trans. Affect. Comput. 5 (2) (April 2014) 101–111.
4 "Sentiment analysis in social media" (Pang et al., 2008). [Электрондық ресурс.] URL: (PDF) Sentiment Analysis in Social Media (researchgate.net) ]
5 "Opinion mining and sentiment analysis" (Liu, 2012). [Электрондық ресурс.] URL:Sentiment Analysis and Opinion Mining (researchgate.net)
6 Shelke N., Deshpande S., and Thakare V. ‗‗Domain independent approach for aspect-oriented sentiment analysis for product reviews‘‘ in Proc. 5th Int. Conf. Frontiers Intell. Comput., Theory Appl., Singapore, Mar. 2017, pp. 651–659.
7 Sharma U., Datta R.K., and Pabreja K. ‗‗Sentiment analysis and prediction of selection results 2018‘‘ in Social Networking and Computational Intelligence, R.K. Shukla, J. Agrawal, S. Sharma, N.S. Chaudhari, and K.K. Shukla, Eds. Singapore: Springer, 2020, pp. 727–739. [Электрондық ресурс.] URL: Sentiment Analysis and Prediction of Election Results 2018 (researchgate.net)
8 Iacus S., Porro G., Salini S., and Siletti E., ‗‗An Italian composite subjective well-being index: The voice of Twitter users from 2012 to 2017,‘‘ Social Indicators Res., vol. 149, pp. 1–19, 2020. [Электрондық ресурс.] URL: An Italian
шағым қалдыра аласыз













