Thứ Tư, 10 tháng 5, 2017

Facebook giới thiệu CNN: dịch ngôn ngữ chuẩn và nhanh hơn 9 lần, sau này dịch được 6500 thứ tiếng

facebook-wall.jpgMark Zuckerberg cho biết Facebook vừa mới công bố kết quả sơ bộ của việc ứng dụng AI (trí tuệ nhân tạo) trong việc dịch tự động ngôn ngữ, nó cho thấy phương pháp mà Facebook đang thử nghiệm cho kết quả chính xác hơn (từ 0.5 tới 1.8 BLEU - xem giải thích bên dưới) và nhanh hơn cách hiện tại tới 9 lần.
Như chúng ta đều biết Facebook là mạng xã hội lớn nhất hành tinh, được cả thế giới sử dụng, thậm chí MXH này còn có giao diện tiếng Việt cho chúng ta dễ dùng hơn. Hiện tại Facebook hỗ trợ dịch 45 ngôn ngữ khác nhau, tức là nếu thấy một status bằng tiếng Pháp bạn có thể nhờ Fb dịch nó qua tiếng Anh, Đức, Nga để dễ hiểu hơn, và ngược lại. Lúc này, bên dưới status sẽ có nút "see translation", bạn bấm vô đó thì nó giúp bạn dịch ra ngôn ngữ mong muốn, nếu thứ tiếng đó được hỗ trợ dịch.

Nhưng như vậy vẫn chưa đủ tốt, hôm 9/5 (giờ Mỹ), Mark Zuckerberg cho biết đội ngũ kỹ sư machine learning của Facebook đã tạo ra một "neural network" (tạm dịch là mạng thần kinh nhân tạo) có thể dịch ngôn ngữ A qua ngôn ngữ B nhanh hơn lên tới 9 lần và chính xác hơn (*) so với các phương pháp dịch ngôn ngữ chuẩn dạng text khác đang được sử dụng (translates language up to nine times faster and more accurately than other current systems that use a standard method to translate text). 
facebook-wall.jpg
Nói như vậy cũng có thể hiểu Facebook ám chỉ rằng phương pháp của họ tốt hơn cả những đối thủ khác không được kể tên ra (other current systems). Đội khoa học làm việc cho dự án neural network mới của Facebook thuộc nhóm FAIR, viết tắt của từ Facebook AI Research. Họ cho biết công nghệ dịch của Facebook thậm chí sau này có thể dịch 6500 ngôn ngữ trên toàn thế giới.

"Neural networks (NN) được thiết kế dựa theo não bộ của con người. NN còn có thể giải quyết được vấn đề muôn thuở của dịch ngôn ngữ đó là dịch một câu từ tiếng này qua tiếng khác, ví dụ một câu thoại tiếng Pháp qua tiếng Anh." Michael Auli, một chuyên gia đang làm việc ở FAIR cho biết. Rõ ràng là như vậy vì dịch cả câu không hề đơn giản như dịch một cụm từ hoặc một mệnh đề, vì nó phụ thuộc rất nhiều ở ngữ cảnh của câu nói, chưa kể văn hóa của ngôn ngữ cũng khác nhau.

Michael Auli cho biết neural networks mới của Facebook còn có thể tóm tắt đoạn văn cho ngắn gọn lại để giúp người đọc dễ hiểu nội dung hơn. Ví dụ một cái post có 1000 chữ có thể được rút ngắn lại 1/3 mà vẫn giữ đủ nội dung quan trọng.
facebook-cnn.jpg
Facebook cho biết có nhiều dạng neural networks đang được ứng dụng trên thế giới. Những công nghệ hiện tại khi dịch ngôn ngữ khi gặp một câu, nó sẽ dò và dịch từng chữ, do đó cho kết quả rất nhiều câu dịch bị tối nghĩa, nhất là khi người viết sử dụng tiếng lóng hoặc bỏ qua lỗi văn phạm. Công nghệ của Facebook khác hơn ở chỗ nó thông minh hơn, mà họ gọi là "CNN - convolutional neural network" (convolutional nghĩa là não có nếp nhăn, ám chỉ là có trí thông minh).

CNN sẽ xét nghĩa của cả câu để giúp dịch ngôn ngữ chính xác hơn, thay vì dò từng từ. Ví dụ, "turn" có nghĩa là xoay, nhưng "turn out" không phải là "xoay ra" mà có nghĩa "hóa ra là". Ví dụ nhé, It turns out my wife was hiding money in the closet. Câu này có nghĩa là tôi phát hiện được vợ giấu tiền trong cái tủ, chứ nếu dịch "it turns out" là "nó xoay ra" thì sai bét rồi.
facebook-translate.gif

Michael Auli cho biết khi dịch câu, ví dụ câu đó có 10 từ thì CNN sẽ xét nghĩa của 5 từ cùng lúc để xem nghĩa của câu đó muốn nói gì, trong khi cùng lúc đó, nó đồng thời xét nghĩa của 6 từ trong câu (và có thể hơn) để xem nghĩa dịch ra có khác ban đầu không. Tức là trong một tác vụ dịch, nó làm việc song song nhiều cách dịch khác nhau để cho kết quả chính xác nhất.

Hiện tại Facebook chưa cho biết khi nào họ sẽ tích hợp CNN vô ứng dụng Facebook để giúp dịch ngôn ngữ nhanh hơn, chính xác hơn, dễ hiểu hơn. Nhưng họ đã cung cấp CNN theo dạng mã nguồn mở, cho những ai quan tâm có thể tham khảo và ứng dụng, xem thêm ở đây nè.

(*) Trong thử nghiệm của Facebook khi so sánh công nghệ dịch ngôn ngữ CNN của họ với hệ thống dịch ngôn ngữ Conference on Machine Translation (WMT). Khi dịch câu từ tiếng Anh ra tiếng Pháp, CNN đạt điểm số cao hơn WMT 2014 là 1.5 BLEU, còn khi dịch tiếng Anh qua Đức, CNN cao hơn WMT 2014 là 0.5 BLEU và cao hơn WMT 2016 1.8 BLEU khi dịch Anh - Romania.

BLEU là thuật toán dùng để đánh giá độ "thoát nghĩa" của ngôn ngữ khi được dịch bằng máy. Khi một câu được dịch từ ngôn ngữ A qua ngôn ngữ B thì người ta sẽ dùng điểm số BLEU để đánh giá nó, giá trị của thuật toán này là 0<BLEU<1. Trong đó điểm số càng gần 1 thì câu dịch càng "thoát nghĩa, dễ hiểu, gần với cách dịch của con người nhất" còn càng gần 0 thì càng tối nghĩa.

arrival.jpg
Biết đâu trong tương lai, Facebook sẽ là ngôn ngữ chung
của toàn thế giới như trong phim Arrival thì sao?
https://tinhte.vn/threads/
Theo FacebookMarkPopsci

Không có nhận xét nào: