BERT là gì?

Được viết tắt từ Bidirectional Encoder Representations from Transformers, một thuật toán mới được Google áp dụng trong công cụ Tìm kiếm.
Mô hình này giúp mọi người hiểu hơn về hệ thống trả lời câu hỏi của Google. Không những hiểu một từ, cụm từ mà BERT còn hiểu rõ từng từ một. Khác với các mô hình trước, việc thiết kế BERT để tạo ra các vector đại diện cho ngôn ngữ văn bản thông qua ngữ cảnh 2 chiều (trái và phải hoặc trước và sau) của chúng. BERT đã thành công trong việc cải thiện những ý định phía sau của câu hỏi thông qua ngữ cảnh của nó.
Mô hình BERT được tạo ra và công bố vào năm 2018, bởi Jacob Devlin và Ming-Wei Chang đến từ Google.

Bài viết này sẽ nói rõ khái niệm, kết quả BERT có thể đem lại một cách tối ưu nhất.

Sự tò mò của con người là vô tận. Việc bắt gặp những vấn đề khó tìm ra đáp án, ta luôn sử dụng Google Search để có câu trả lời. Chính vì thế, chúng ta nhận được hàng tỉ lượt tìm kiếm mỗi ngày. Theo thống kê của Google, hơn 15% những câu hỏi đặt ra là các vấn đề mới, chưa gặp qua. Thế nên, việc xây dựng một cách thức tối ưu cho việc tìm kiếm là rất quan trọng. Và từ đấy mô hình BERT đã ra đời để giúp đỡ cho nhu cầu trên.

Áp dụng mô hình BERT vào công cụ Tìm kiếm

Khi bắt đầu tìm kiếm một từ khoá nào đó, ta thường cảm thấy không chắc chắn về nó. Có thể từ khoá này không chính xác hoặc sai chính tả. Điều này bắt nguồn từ việc, ta không cần một tí kiến thức nào cho vấn đề ta cần tìm.

Chính vì thế, việc tìm kiếm phải bao gồm việc Hiểu. Hiểu ngôn ngữ và hiểu tất cả những từ, cụm từ tìm kiếm. Đôi khi, các cụm từ phức tạp hoặc đoạn văn ngắn cũng khiến việc tìm kiếm gặp nhiều cản trở. Đó là một trong những lý do khiến nhiều người sử dụng từ khoá quen thuộc. Hoặc những cụm từ có sẵn mà họ nghĩ công cụ Tìm kiếm sẽ “hiểu”.

Mô hình BERT không chỉ là một phần mềm tiến bộ của Google. Nó còn là một phần cứng mới, cho phép Google tối ưu những câu hỏi phức tạp hơn. BERT của Google đã phá bỏ giới hạn của những nền tảng tìm kiếm khác. Ngoài ra, ta có thể sử dụng Cloud TPUs để tìm kiếm những thông tin liên quan và nhanh chóng hơn.

Công cụ BERT hoạt động thế nào trên những câu hỏi tìm kiếm

Vậy BERT hoạt động như thế nào?

Mô hình BERT bao gồm việc xếp hạng (ranking) và đoạn thông tin trích dẫn cho phép có nhanh câu trả lời (featured snippets). Đối với kết quả xếp hạng, BERT giúp công cụ Tìm kiếm hiểu tốt hơn, đặc biệt trên tiếng Anh.

Để hiểu thêm về BERT, ta có thể đi qua các ví dụ sau đây. Đây là những ví dụ đánh giá khả năng hoạt động của mô hình.

Nếu ta tìm kiếm với từ khoá “Đi du lịch từ Việt Nam đến Mỹ cần visa 2019”. Kết quả tìm kiếm từ nền tảng khác sẽ cho ra nhiều kết quả không liên quan. Kết quả hiển thị như: Cần chuẩn bị gì khi đi du lịch Mỹ lần đầu hoặc Những quốc gia không cần visa. Đối với BERT, Google đã cho ra nhiều kết quả liên quan hơn. Google hiểu rõ từ “đến” và cho ra kết quả liên quan mật thiết đến câu hỏi. Việc hiểu rõ những cụm từ, thuật toán này đã cho ra những kết quả liên quan rất nhiều.

Kết quả trên nền tảng và thuật toán thông thường
Công cụ BERT trên Google

Tiếp tục, đối với từ khoá “Có thể nhờ người thân lấy giúp bằng lái xe”. Kết quả cho ra cũng thể hiện điều tương tự. Với mô hình BERT, Google có thể hiểu rõ hơn cụm từ “người thân”. Đây cũng chính là từ khoá quan trọng nhất.

Kết quả trên nền tảng khác không liên quan đến từ khoá
BERT đã giúp người dùng nhận được kết quả liên quan hơn rất nhiều

Cải thiện Tìm kiếm trên nhiều ngôn ngữ

Việc áp dụng mô hình BERT không chỉ dừng lại ở việc cải thiện những kết quả tìm kiếm. Mà BERT còn phải hoạt động tốt trên nhiều ngôn ngữ, quốc gia. Một đặc điểm tuyệt vời của hệ thống này nằm ở chỗ: học hỏi. BERT có thể học một ngôn ngữ và áp dụng cho nhiều ngôn ngữ khác. Chẳng hạn, tiếng Anh là ngôn ngữ được sử dụng rộng rãi trên hầu hết các trang web. Ta có thể dùng mô hình để học những cải thiện của ngôn ngữ này. Và từ đó, áp dụng cho nhiều ngôn ngữ khác. Điều này giúp ta thu được những kết quả liên quan hơn trên thứ tiếng.

Đối với featured snippets, chúng ta sử dụng BERT để cải thiện nó trên nhiều quốc gia (những nơi mà đặc điểm này có sẵn). Nhiều ngôn ngữ được cải thiện đáng kể như: tiếng Hàn, tiếng Hindi và tiếng tiếng Bồ Đào Nha.

Tối ưu hoá trên nhiều ngôn ngữ
Tối ưu hoá trên nhiều ngôn ngữ

Tìm kiếm không chỉ dừng lại ở việc giải quyết các vấn đề

Dù bạn tìm kiểm gì, hoặc ngôn ngữ bạn nói ra sao. Chúng tôi đều mong việc tìm kiếm dựa trên những gì bạn suy nghĩ. Vì như thế, kết quả luôn nhận được chuẩn xác hơn và tự nhiên hơn rất nhiều.

Thế nhưng, Google luôn thay đổi thuật toán của mình rất nhiều. Ngay cả với mô hình BERT, bạn sẽ không thể có kết quả vừa ý 100%. Nếu bạn tìm kiếm với từ khoá “Thành phố nào ở tỉnh miền trung” trên Google. BERT có thể sẽ nhận ra cụm từ “tỉnh miền trung” là quan trọng nhất. Dù thực chất bạn đang cần kết quả là: các thành phố tại nơi đây.

Tối ưu hoá trên nhiều ngôn ngữ
Cách tìm kiếm của Google còn cần nhiều cải thiện

Chính vì vậy, việc hiểu nhiều ngôn ngữ là thử thách lâu dài cho công cụ Tìm kiếm nói riêng. Đó cũng chính là động lực cho Google trong việc cải thiện Tìm kiếm. Chúng tôi luôn cố gắng nhiều hơn để những câu trả lời, những thông tin hữu ích để BERT mang đến cho bạn cách giải quyết câu hỏi tìm kiếm tốt nhất.
Nếu bạn thích bài viết này hoặc có thắc mắc, đừng ngần ngại cho Thanh Khiết biết ở dưới phần bình luận nhé.