• Home
  • یوسف پورابراهیم

    List of Articles یوسف پورابراهیم


  • Article

    1 - بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه‌های عصبی ترنسفورمر و کانولوشنی
    Journal of Intelligent Procedures in Electrical Technology , Issue 5 , Year , Winter 2023
    بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش‌های آموزش شبکه‌های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه‌های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشن More
    بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش‌های آموزش شبکه‌های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه‌های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیاده‌سازی نسبت به روش‌های موجود ساده‌تر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکه‌های عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکه‌های کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان می‌دهد که استفاده از شبکه‌های عصبی ترنسفورمر در بازشناسی بعضی از حالت‌های احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده ‌که استفاده از شبکه‌های عصبی ساده به صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار می‌تواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکه‌های عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال-ترنسفورمر (CTF) برای دادگان راودس دقتی برابر 94/80 درصد به دست آورد؛ در حالی که یک شبکه عصبی کانولوشنی ساده دقتی در حدود 7/72 درصد به دست آورد. همچنین ترکیب شبکه‌های عصبی ساده علاوه بر اینکه می‌تواند دقت بازشناسی را افزایش دهد، می‌تواند زمان آموزش و نیاز به نمونه‌های آموزشی برچسب دار را نیز کاهش دهد. Manuscript profile

  • Article

    2 - Parallel Shared Hidden Layers Auto-encoder as a Cross-Corpus Transfer Learning Approach for Unsupervised Persian Speech Emotion Recognition
    Signal Processing and Renewable Energy , Issue 5 , Year , Autumn 2021
    Detecting emotions from speech is one of the challenging topics in speech signal processing, especially in low resource languages. Extracting common features between the training and testing set, using unsupervised method, can solve the inconsistency difficulty between More
    Detecting emotions from speech is one of the challenging topics in speech signal processing, especially in low resource languages. Extracting common features between the training and testing set, using unsupervised method, can solve the inconsistency difficulty between training and test data. In this study, a new auto-encoder based structure is proposed as a new unsupervised method for domain adaptation. To this end, the proposed structure is made of shared encoders to learn common feature representations, shared across the source and the target domain datasets to minimize the discrepancy between them. In order to evaluate the performance of the proposed method, five generally available databases in different languages were used as training and testing datasets. Results on various scenarios demonstrated that the proposed method improves the classification performance significantly compared to the baseline and state of the art unsupervised domain adaptation methods for emotional speech recognition. As an example, the proposed method improved the emotion recognition rate in Persian emotional speech dataset (PESD) by 8% compared to cross corpus training when the source training set is EMOVO. Manuscript profile