XÂY DỰNG KHO NGỮ LIỆU SONG NGỮ CHẤT LƯỢNG CAO CHO CẶP NGÔN NGỮ HẠN CHẾ TÀI NGUYÊN
DOI:
https://doi.org/10.51453/2354-1431/2023/962Từ khóa:
Khai thác dữ liệu, Dữ liệu lớn, Kho ngữ liệu song ngữ, Căn chỉnh câu.Tóm tắt
Kho ngữ liệu song ngữ có chất lượng cao là một nguồn tài nguyên quan trọng cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, chẳng hạn như: dịch máy, tìm kiếm liên ngôn ngữ, xây dựng từ điển song ngữ,… Đối với cặp ngôn ngữ hạn chế tài nguyên (chẳng hạn như cặp ngôn ngữ Việt-Lào) thì rất khó để mà xây dựng được kho ngữ liệu song ngữ có chất lượng cao vì tài nguyên song ngữ là hiếm. Trong bài báo này, chúng tôi đề xuất một quy trình xây dựng kho ngữ liệu song ngữ chất lượng cao cho căp ngôn ngữ hạn chế tài nguyên và một phương pháp dóng hàng câu mà tận dụng lợi thế của các mô hình hiện đại đã được huấn luyện trước cho các ngôn ngữ giàu tài nguyên. Triển khai thực nghiệm dóng hàng câu và đánh giá chất lượng kho ngữ liệu trên cặp ngôn ngữ Việt-Lào cho thấy phương pháp dóng hàng câu đề xuất của chúng tôi đạt độ chính xác precision và recall cao hơn hẳn so với các phương pháp dóng hàng câu đã được xem là tốt và kho ngữ liệu song ngữ Việt-Lào mà chúng tôi xây dựng đạt chất lượng cao.
Tải xuống
Tài liệu tham khảo
[1] J. Tiedemann, “OPUS - parallel corpora for every¬one,” in Proceedings of the 19th Annual Conference of the European Association for Machine Translation: Projects/Products, Baltic Journal of Modern Comput¬ing, Riga, Latvia, 2016.
[2] E. Salesky, M. Wiesner, J. Bremerman, R. Cattoni, M. Negri, M. Turchi, D. W. Oard, M. Post, “The Mul¬tilingual TEDx Corpus for Speech Recognition and Translation,” CoRR, abs/2102.01757, 2021.
[3] S. Siripragada, J. Philip, V. P. Namboodiri, C. V. Jawa- har, “A Multilingual Parallel Corpora Collection Effort for Indian Languages,” CoRR, abs/2007.07691, 2020.
[4] L. Doan, L. T. Nguyen, N. L. Tran, T. Hoang, D. Q. Nguyen, “PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation,” 2021.
[5] A. Magueresse, V. Carles, E. Heetderks, “Low- resource Languages: A Review of Past Work and Fu¬ture Challenges,” CoRR, abs/2006.07264, 2020.
[6] N. Dash, A. Selvaraj, Limitations of Language Corpora, 259-272, 2018, doi:
1007/978-981-10-7458-5-15.
[7] X. Ma, “Champollion: A Robust Parallel Text Sen¬tence Aligner,” in Proceedings of the Fifth Interna¬tional Conference on Language Resources and Evalua¬tion (LREC’06), European Language Resources Asso¬ciation (ELRA), Genoa, Italy, 2006.
[8] D. Varga, P. Halacsy, A. Kornai, V. Nagy, L. Nemeth, V. Tron, “Parallel corpora for medium density lan¬guages,” in Recent Advances in Natural Language Processing IV, 247-258, John Benjamins, 2007.
[9] N. T. Ha, N. T. M. Huyen, N. M. Hai, “Building a sentence-aligned Vietnamese-English bilingual corpus in tourism domain for machine translation,” JOUR¬NAL OF RESEARCH AND DEVELOPMENT ON INFORMATION AND COMMUNICATION TECH¬NOLOGY, V-1, number 39, 2018.
[10] N. T. M. Huyn, M. Rossignol, “A language¬independent method for the alignement of parallel corpora,” in Proceedings of the 20th Pacific Asia Conference on Language, Information and Compu¬tation, 223-230, Tsinghua University Press, Huazhong Normal University, Wuhan, China, 2006, doi:http: //hdl.handle.net/2065/29065.
[11] B. Thompson, P. Koehn, “Vecalign: Improved Sen¬tence Alignment in Linear Time and Space,” in Pro¬ceedings of the 2019 Conference on Empirical Meth¬ods in Natural Language Processing and the 9th Inter¬national Joint Conference on Natural Language Pro¬cessing (EMNLP-IJCNLP), 1342-1348, Association for Computational Linguistics, Hong Kong, China, 2019, doi:10.18653/v1/D19-1136.
[12] K. Chousa, M. Nagata, M. Nishino, “SpanAlign: Sen¬tence Alignment Method based on Cross-Language Span Prediction and ILP,” in Proceedings of the 28th International Conference on Computational Linguis¬tics, 4750-4761, International Committee on Compu¬tational Linguistics, Barcelona, Spain (Online), 2020, doi:10.18653/v1/2020.coling-main.418.
[13] S. Luo, H. Ying, S. Yu, “Sentence Alignment with Parallel Documents Helps Biomedical Machine Trans¬lation,” 2021.
[14] H. Hassan, A. Aue, C. Chen, V. Chowdhary, J. Clark, C. Federmann, X. Huang, M. Junczys-Dowmunt, W. Lewis, M. Li, S. Liu, T. Liu, R. Luo, A. Menezes, T. Qin, F. Seide, X. Tan, F. Tian, L. Wu, S. Wu, Y. Xia, D. Zhang, Z. Zhang, M. Zhou, “Achieving Human Par¬ity on Automatic Chinese to English News Translation,” CoRR, abs/1803.05567, 2018.
[15] V. Chaudhary, Y. Tang, F. Guzman, H. Schwenk, P. Koehn, “Low-Resource Corpus Filtering Using Mul¬tilingual Sentence Embeddings,” in Proceedings of the Fourth Conference on Machine Translation (Volume 3: Shared Task Papers, Day 2), 261-266, Association for Computational Linguistics, Florence, Italy, 2019, doi:10.18653/v1/W19-5435.
[16] R. Sennrich, B. Haddow, A. Birch, “Neural Ma¬chine Translation of Rare Words with Subword Units,” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 1715-1725, Association for Com¬putational Linguistics, Berlin, Germany, 2016, doi: 10.18653/v1/P16- 1162.
Tải xuống
Đã Xuất bản
Cách trích dẫn
Số
Chuyên mục
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép Quốc tế Creative Commons Attribution-ShareAlike 4.0 .
Bài báo được xuất bản ở Tạp chí Khoa học Đại học Tân Trào được cấp phép theo giấy phép Ghi công - Chia sẻ tương tự 4.0 Quốc tế (CC BY-SA). Theo đó, các tác giả khác có thể sao chép, chuyển đổi hay phân phối lại các bài báo này với mục đích hợp pháp trên mọi phương tiện, với điều kiện họ trích dẫn tác giả, Tạp chí Khoa học Đại học Tân Trào và đường link đến bản quyền; nêu rõ các thay đổi đã thực hiện và các nghiên cứu đăng lại được tiến hành theo cùng một bản quyền.
Bản quyền bài báo thuộc về các tác giả, không hạn chế số lượng. Tạp chí Khoa học Tân Trào được cấp giấy phép không độc quyền để xuất bản bài báo với tư cách nhà xuất bản nguồn, kèm theo quyền thương mại để in các bài báo cung cấp cho các thư viện và cá nhân.
Mặc dù các điều khoản của giấy phép CC BY-SA không dành cho các tác giả (với tư cách là người giữ bản quyền của bài báo, họ không bị hạn chế về quyền hạn), khi gửi bài tới Tạp chí Khoa học Đại học Tân Trào, tác giả cần đáp ứng quyền của độc giả, và cần cấp quyền cho bên thứ 3 sử dụng bài báo của họ trong phạm vi của giấy phép.