ParsAirCall: تلفن گویای محاوره ای خودکار در مرکز تماس فرودگاهی با استفاده از یادگیری انتقالی عمیق
الموضوعات : سامانههای پردازشی و ارتباطی چندرسانهای هوشمندسهیل تهرانی پور 1 , محمد منثوری 2 , سمانه یزدانی 3
1 - کارشناسی ارشد، هوش مصنوعی و رباتیک، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران
2 - استادیار، گروه کنترل، دانشگاه شاهد، تهران، ایران
3 - استادیار، گروه کامپیوتر، واحد تهران شمال، دانشگاه آزاد اسلامی، تهران، ایران
الکلمات المفتاحية: مرکز تماس, بازشناسی خودکار گفتار, یادگیری عمیق انتقالی, سامانههای هوشمند فرودگاهی,
ملخص المقالة :
در دنیای امروز با عنایت به پیشرفتهای هوش مصنوعی، سامانههای سنتی موجود در تعامل با مخاطبین در تماسهای تلفنی کارآمد نخواهند بود و این کارآمدی با اتوماسیون و خودکارسازی فعالیتهای تکراری بهبود خواهد یافت. در این مقاله، ابزار ParsAirCall معرفی شده است که یک ابزار برای تشخیص خودکار گفتار فارسی اعداد در سامانههای فرودگاهی است که از یادگیری انتقالی عمیق برای بهبود عملکرد در محیطهای واقعی و عملیاتی سامانههای هوشمند تلفنی گویا در فرودگاههای کشور میباشد. ParsAirCall با تعداد کمتر پارامترها و منابع محاسباتی بهینهتر و نیز دقت بالاتر از مدلهای رقیب عمل میکند. به دلیل محدودیت دادههای موجود برای تشخیص گفتار در زبان فارسی، یک مجموعه دادگان 30ساعته تلفنی جمعآوری و برچسبگذاری شده و برای آموزش مدل نهایی مورد استفاده قرار گرفته است. آزمایشها روی هر دو مجموعه داده تلفنی جمعآوری شده توسط ما و پروژه Common Voice انجام شدند، که کارایی ParsAirCall را در دستیابی به 2.7% میزان WER در تشخیص اعداد در تماسهای تلفنی فرودگاهی را نشان میدهد. ParsAirCall میتواند به راحتی به عنوان یک سرویس در هر سیستمهای تلفنی فرودگاهی فارسی زبان ادغام شود، که آن را به یک ابزار قابل اجرا برای تشخیص اعداد در مراکز تماس و سیستمهای تلفنی فرودگاهی تبدیل کند.
1. Deshpande, G., A. Batliner, and B.W. Schuller, AI-Based human audio processing for COVID-19: A comprehensive overview. Pattern recognition, 2022. 122: p. 108289.
2. Agarwal, P., S. Swami, and S.K. Malhotra, Artificial intelligence adoption in the post COVID-19 new-normal and role of smart technologies in transforming business: a review. Journal of Science and Technology Policy Management, 2022.
3. Mitreska, M., et al., Representation Learning for Automatic Speech Recognition: A Review of Speech-to-Text Methods. 2023.
4. Young, S.J. and S. Young, The HTK hidden Markov model toolkit: Design and philosophy. 1993.
5. Veisi, H. and A. Haji Mani, Persian speech recognition using deep learning. International Journal of Speech Technology, 2020. 23: p. 893-905.
6. Shafieian, M., Hidden Markov model and Persian speech recognition. International Journal of Nonlinear Analysis and Applications, 2023. 14(1): p. 3111-3119.
7. Hinton, G., et al., Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal processing magazine, 2012. 29(6): p. 82-97.
8. Farahani, M., et al., Parsbert: Transformer-based model for persian language understanding. Neural Processing Letters, 2021. 53: p. 3831-3847.
9. Gonbadi, L. and N. Ranjbar, Sentiment Analysis of People’s opinion about Iranian National Cars with BERT.
10. Farhadi, A., et al., Unsupervised Domain Adaptation for image classification based on Deep Neural Networks. Intelligent Multimedia Processing and Communication Systems (IMPCS), 2023. 4(1): p. 27-37.
11. Salazar, J., K. Kirchhoff, and Z. Huang. Self-attention networks for connectionist temporal classification in speech recognition. in Icassp 2019-2019 ieee international conference on acoustics, speech and signal processing (icassp). 2019. IEEE.
12. Perero-Codosero, J.M., et al. Exploring Open-Source Deep Learning ASR for Speech-to-Text TV program transcription. in IberSPEECH. 2018.
13. Hannun, A., et al., Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567, 2014.
14. Amodei, D., et al. Deep speech 2: End-to-end speech recognition in english and mandarin. in International conference on machine learning. 2016. PMLR.
15. Hsiao, R., et al., Online Automatic Speech Recognition With Listen, Attend and Spell Model. IEEE Signal Processing Letters, 2020. 27: p. 1889-1893.
16. Collobert, R., C. Puhrsch, and G. Synnaeve, Wav2letter: an end-to-end convnet-based speech recognition system. arXiv preprint arXiv:1609.03193, 2016.
17. Baevski, A., et al., wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020.
18. Peng, C.-J., et al., Attention-based multi-task learning for speech-enhancement and speaker-identification in multi-speaker dialogue scenario. arXiv preprint arXiv:2101.02550, 2021.
19. Radford, A., et al. Robust speech recognition via large-scale weak supervision. in International Conference on Machine Learning. 2023. PMLR.
20. Ardila, R., et al., Common voice: A massively-multilingual speech corpus. arXiv preprint arXiv:1912.06670, 2019.
21. Kriman, S., et al. Quartznet: Deep automatic speech recognition with 1d time-channel separable convolutions. in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. IEEE.