VinAI ra mắt mô hình ngôn ngữ lớn tên PhởGPT

xamvn8888

Xàm 0 Lít
PhởGPT có mô hình tương tự ChatGPT, huấn luyện bằng dữ liệu tiếng Việt nhằm tạo khả năng hiểu, viết theo văn phong tự nhiên, ra mắt ngày 5/12.

Dự án được công bố tại Ngày Trí tuệ nhân tạo 2023 (AI Day 2023) với chủ đề "AI - tái thiết thực tại". Chương trình tổ chức thường niên bởi VinAI (thuộc Tập đoàn Vingroup) và New Turning Institute; đơn vị đồng hành là Bộ Khoa học và Công nghệ Việt Nam, Trung tâm Đổi mới Sáng tạo Quốc gia (NIC).

Ở năm thứ 5 tổ chức, chương trình kéo dài trong hai ngày 5-6/12. Ngày đầu tiên, VinAI công bố dự án nghiên cứu mã nguồn mở về mô hình ngôn ngữ lớn cho riêng tiếng Việt là PhởGPT. Theo đại diện đơn vị, dự án hướng đến mục tiêu phát triển các mô hình tương tự như ChatGPT cho tiếng Việt và văn hóa người Việt. PhởGPT có khả năng hiểu và viết văn phong tiếng Việt. Mô hình cũng được huấn luyện từ đầu với tập dữ liệu tiếng Việt, không phụ thuộc các mô hình khác của thế giới.

"PhởGPT song hành cùng trào lưu mô hình ngôn ngữ lớn với mã nguồn mở của thế giới. So sánh phiên bản PhởGPT-7B5-Instruct, ChatGPT mã nguồn đóng (GPT-3.5-turbo) cùng các mô hình mã nguồn mở khác cho thấy PhởGPT đứng thứ hai chỉ sau ChatGPT trong hầu hết mục đánh giá", đại diện nhóm phát triển dự án cho biết.

Cũng theo lãnh đạo VinAI, đội ngũ phát triển PhởGPT đang tiếp tục cải tiến mô hình và sẽ mở rộng dự án cho các ngôn ngữ khác. Nhóm hướng đến các ngôn ngữ trong khu vực Đông Nam Á.

Toàn cảnh sự kiện. Ảnh: VinAI

Toàn cảnh sự kiện. Ảnh: VinAI

Bên cạnh việc ra mắt dự án mới, xuyên suốt hai ngày có bốn phiên thảo luận chính, xoay quanh các chủ đề: Tương lai của mô hình ngôn ngữ lớn (LLMs); Định hình tầm nhìn về tương lai trí tuệ nhân tạo; Tác động toàn cầu của trí tuệ nhân tạo tạo sinh GenAI và Tiềm năng của GenAI trong nền kinh tế Đông Nam Á.

Trong đó, AI tạo sinh - GenAI là chủ đề nóng, được quan tâm bởi tính thiết thực và công năng. Tham gia bàn thảo là hơn 30 chuyên gia gồm các giáo sư, nhà khoa học hàng đầu trong lĩnh vực trí tuệ nhân tạo toàn cầu, hơn 100 đại diện doanh nghiệp và 1.500 khách mời lĩnh vực công nghệ, sản xuất, chế tạo trong nước lẫn quốc tế. Bên cạnh dự bốn phiên thảo luận, người tham dự còn có cơ hội trải nghiệm những tính năng, sản phẩm ứng dụng trí tuệ nhân tạo tại gian hàng triển lãm..

Tiến sĩ Bùi Hải Hưng, Tổng giám đốc VinAI cho biết AI Day 2023 là sự kiện về trí tuệ nhân tạo quy mô lớn nhất mà đơn vị đồng tổ chức. Năm nay, chương trình đặt trọng tâm vào GenAI, kỳ vọng tạo cầu nối trí tuệ Việt với những tiến bộ tương lai. "Chúng tôi cũng hướng đến mục tiêu đưa cộng đồng AI Việt ngày một phát triển trên toàn cầu", ông Hưng nhấn mạnh

Ông dẫn số liệu Precedence Research cho biết, chi tiêu vào phần cứng AI đang tăng lên nhanh chóng, từ 43 tỷ USD năm 2021 lên khoảng 248 tỷ USD năm 2030. Trong bối cảnh này, VinAI đầu tư vào việc tối ưu các thuật toán AI, giúp giảm mức hao phí xuống thấp nhất. Các mô hình AI sau khi được tối ưu giảm đáng kể chi phí đầu tư phần cứng và vận hành điện toán đám mây; chiếm ít dung lượng bộ nhớ, giảm tiêu hao điện năng, từ đó giảm khí thải ra môi trường.

Ông Trần Duy Đông, Thứ trưởng Bộ Kế hoạch đầu tư (giữa) cùng ông Bùi Hải Hưng - Tổng giám đốc VinAI (phải) và ông Thức Vũ, CEO của OhmniLab - Kambria tại lễ khai mạc. Ảnh: VinAI

Ông Trần Duy Đông, Thứ trưởng Bộ Kế hoạch đầu tư (giữa) cùng ông Bùi Hải Hưng - Tổng giám đốc VinAI (phải) và ông Thức Vũ, CEO của OhmniLab - Kambria tại lễ khai mạc. Ảnh: VinAI

Công ty Cổ phần Nghiên cứu và Ứng dụng Trí tuệ nhân tạo VinAI có tiền thân là Viện Nghiên cứu Trí tuệ nhân tạo VinAI. Đơn vị nằm trong top 20 công ty hàng đầu thế giới về phát triển các sản phẩm và dịch vụ ứng dụng AI. Công ty cung cấp giải pháp số hóa, cải thiện trải nghiệm của khách hàng, cam kết thúc đẩy sự phát triển của AI.

Minh Huy
tml nào dùng thử chưa :vozvn (22)::vozvn (1):
 
Tưởng năm ngoái, còn anh Nghẹo mới theo trend AI, còn năm nay theo trend bán dẫn chứ. Giờ lại bật mồ trend của anh Ngẹo à?
 
lại thêm đám xạo lồn câu fame rồi, thằng ChatGPT mỗi ngày vận hành tốn 700k Bi Đần, nói thẳng là đéo có công ty hay tập đoàn nào ở Vịt đủ sức chơi
Thế mày nghĩ Vin vượng nó phát triển , duy trì cái này thật à, nó vẽ vời để thổi giá cổ phiếu, huy động tiền thôi.
 
Thế mày nghĩ Vin vượng nó phát triển , duy trì cái này thật à, nó vẽ vời để thổi giá cổ phiếu, huy động tiền thôi.
tao nghi hỏi Vượn cái máy chủ nằm đâu khéo Vượn cũng ú ớ
 
Nhớm đánh giá nó nói lấp lửng đấy DCM. Con LLM này đứng thứ 2 sau ChatGPT KHI SỬ DỤNG TIẾNG VIỆT thôi. Report của bọn nó ghi rõ là dữ liệu để train là 41GB tài liệu tiếng Việt, không bao gồm viết code và làm toán.

41GB là quá nhỏ khi so với đám open LLM như Llama (của Meta), Falcon (của Amazon).

Kiến trúc vẫn là Transformer. Train ra 1 con như này quá bình thường. Bất kỳ tml nào có bộ Dataset đủ sạch, đủ lớn cũng tự làm được.
 
Nhớm đánh giá nó nói lấp lửng đấy DCM. Con LLM này đứng thứ 2 sau ChatGPT KHI SỬ DỤNG TIẾNG VIỆT thôi. Report của bọn nó ghi rõ là dữ liệu để train là 41GB tài liệu tiếng Việt, không bao gồm viết code và làm toán.

41GB là quá nhỏ khi so với đám open LLM như Llama (của Meta), Falcon (của Amazon).
Dữ liệu thế không nhỏ đâu, riêng tiếng Việt mà. Phiên bản GPT 2.0 hình như có 50GB thôi mà
 
Dữ liệu thế không nhỏ đâu, riêng tiếng Việt mà. Phiên bản GPT 2.0 hình như có 50GB thôi mà
GPT2 nó ra lâu rồi, và nó ngu lắm. So thế nào được. Nói vậy mang 41GB đấy đi fine-tune con Llama còn ngon hơn :-“
 
lại thêm đám xạo lồn câu fame rồi, thằng ChatGPT mỗi ngày vận hành tốn 700k Bi Đần, nói thẳng là đéo có công ty hay tập đoàn nào ở Vịt đủ sức chơi
Nó release cái model thôi bố. Nó có host đéo đâu mà tốn tiền. Hiểu đơn giản là nó up cái file lên HuggingFace. Xong.
 
Tao nói thằng chatgpt chứ tao nói cái củ lồn phògpt này đâu
Màu muốn xem cái gì của ChatGPT? Tao nói là bọn Vin nó release cái model thôi chứ không host nên không tốn tiền hạ tầng. Còn OpenAI đốt 700K đô / Ngày, tao đồng ý.
 
lại thêm đám xạo lồn câu fame rồi, thằng ChatGPT mỗi ngày vận hành tốn 700k Bi Đần, nói thẳng là đéo có công ty hay tập đoàn nào ở Vịt đủ sức chơi
Quan trọng có ai xài mới scale lên chứ ko ai xài thì tốn ít
 
Màu muốn xem cái gì của ChatGPT? Tao nói là bọn Vin nó release cái model thôi chứ không host nên không tốn tiền hạ tầng. Còn OpenAI đốt 700K đô / Ngày, tao đồng ý.
Train cái model này dàn máy cũng mạnh rồi. Cũng tầm 2 tháng lương ceo
 
Top