Đại học Kyoto nâng cao hiệu suất HPC

ACCMS tại KyotoU tối đa hóa CPU Intel® Xeon® Chuỗi Max để nâng cao tốc độ và hiệu quả của các cuộc điều tra khoa học.

Tổng quan:

  • Đại học Kyoto là nơi đặt Trung tâm Học thuật về Điện toán và Phương tiện Truyền thông (ACCMS). ACCMS hỗ trợ các nghiên cứu học thuật về điện toán và phương tiện truyền thông và lưu trữ một số hệ thống HPC phục vụ nghiên cứu điện toán.

  • Việc liên tục tìm kiếm sự tối ưu hóa đã thúc đẩy họ hợp tác với Intel để cập nhật các hệ thống siêu máy tính của mình. Được trang bị CPU Intel® Xeon® Chuỗi Max mới nhất, các hệ thống mới này được thiết kế để đáp ứng nhu cầu của người dùng về băng thông bộ nhớ hiệu suất cao vượt trội, dung lượng bộ nhớ lớn và hiệu suất song song tối ưu trong cơ sở hạ tầng HPC cân bằng tốt.

Đi đầu trong đổi mới công nghệ và sự xuất sắc trong học thuật, Đại học Kyoto là nơi có rung tâm Học thuật về Điện toán và Nghiên cứu Truyền thông (ACCMS), một trung tâm năng động cho nghiên cứu truyền thông và điện toán tiên tiến. Trong nhiều năm qua, ACCMS đã trở thành trung tâm thúc đẩy nghiên cứu và phát triển khoa học mang tính đột phá thông qua các nguồn tài nguyên điện toán hiện đại. Sự phát triển liên tục này phản ánh cam kết luôn đi đầu trong những tiến bộ công nghệ, với mục tiêu mở rộng ranh giới của nghiên cứu điện toán.

Tuy nhiên, giữa những tiến bộ này, rõ ràng vẫn còn tồn tại một số thách thức nhất định. Nhiều mã mô phỏng phức tạp, một phần không thể thiếu của quy trình nghiên cứu, phải đối mặt với những hạn chế liên quan đến băng thông bộ nhớ trong các tài nguyên Điện toán Hiệu năng Cao (HPC) hiện có. Nói một cách đơn giản hơn, tốc độ đọc hoặc ghi vào bộ nhớ của các mã này là một yếu tố hạn chế, ảnh hưởng đến hiệu suất tổng thể của chúng.

Giới hạn băng thông bộ nhớ này đang đặt ra một thách thức liên tục cho các nhà nghiên cứu điện toán. Để tối đa hóa hiệu suất của mã, họ đang tìm cách tối ưu hóa chúng để hoạt động trong những hạn chế này. Điều này có thể bao gồm việc sử dụng bộ nhớ hiệu quả hơn, điều chỉnh mã để phù hợp hơn với hệ thống phân cấp bộ nhớ của hệ thống HPC hoặc thậm chí phát triển các thuật toán và kỹ thuật mới ít phụ thuộc hơn vào băng thông bộ nhớ.

Chính nỗ lực liên tục tìm kiếm sự tối ưu hóa này đã thúc đẩy Đại học Kyoto hợp tác với Intel để cập nhật các hệ thống siêu máy tính của họ. Được trang bị CPU Intel® Xeon® Chuỗi Max mới nhất, các hệ thống mới này được thiết kế để đáp ứng nhu cầu của người dùng về băng thông bộ nhớ hiệu suất cao vượt trội, dung lượng bộ nhớ mở rộng và hiệu suất song song tối ưu trong cơ sở hạ tầng Điện toán Hiệu năng Cao (HPC) cân bằng tốt.

“Chúng tôi cần một CPU thân thiện với người dùng cho các ứng dụng trong hệ thống của Đại học Kyoto, nghĩa là có giá trị B/F cao, CPU x86 với DDR5 và hệ thống x86 có bộ nhớ lớn. Và dựa trên nghiên cứu của chúng tôi, không có CPU nào ngoài CPU Intel Xeon Chuỗi Max đáp ứng được yêu cầu của chúng tôi.”—Keiichiro Fukazawa, Phó giáo sư, Khoa Nghiên cứu Điện toán, ACCMS, Đại học Kyoto

Nhu cầu về các nguồn Tài nguyên Điện toán Nâng cao

Để nghiên cứu khoa học hiệu quả, mục tiêu thường xuyên là đẩy nhanh quá trình tạo ra kết quả. Ngoài yêu cầu về thời gian chạy nhanh hơn, các nhà nghiên cứu còn phải đối mặt với nhiều thách thức quan trọng. Những rào cản này bao gồm nhiều vấn đề, từ sự phức tạp trong quản lý và phân tích dữ liệu đến nhu cầu về các nguồn lực điện toán tiên tiến. Việc hiểu và giải quyết những thách thức này rất quan trọng để các nhà nghiên cứu đẩy nhanh các khám phá khoa học và thúc đẩy đổi mới.

Những tiến bộ nhanh chóng trong công nghệ máy tính đã dẫn đến nhu cầu ngày càng tăng về khả năng tính toán nhanh hơn và lớn hơn. Đối với Đại học Kyoto, khi tính phức tạp và nhu cầu tính toán ngày càng tăng, nhu cầu về các nguồn lực mạnh mẽ hơn trở nên rõ ràng. Các nguồn lực tiên tiến này đóng vai trò thiết yếu trong việc cung cấp sức mạnh điện toán cần thiết để đưa ra kết quả trong thời gian ngắn hơn và đẩy nhanh năng suất nghiên cứu. Tuy nhiên, ngoài yêu cầu về thời gian chạy nhanh hơn, một thách thức quan trọng khác là nhu cầu về băng thông bộ nhớ lớn hơn cho mỗi nút khi khối lượng công việc tăng lên và nhu cầu xử lý các tác vụ ở quy mô lớn hơn phát sinh.

Keiichiro Fukazawa, Phó giáo sư, Khoa nghiên cứu máy tính, ACCMS, Đại học Kyoto, giải thích: “Trong quá trình theo đuổi mục tiêu nâng cao kết quả nghiên cứu, các nhà nghiên cứu luôn nỗ lực thực hiện chương trình nhanh chóng và mở rộng hơn”. Ông nói thêm: “Yêu cầu cụ thể của họ xoay quanh nhu cầu phân bổ bộ nhớ rộng rãi cho mỗi nút”.

Tìm Giải pháp

Việc nhấn mạnh vào tốc độ xử lý và khả năng bộ nhớ lớn hơn để nhanh chóng có được kết quả khoa học phản ánh động lực liên tục trong cộng đồng nghiên cứu. Điều này rất quan trọng để nâng cao hiệu quả và khả năng của các hệ thống tính toán, nhằm giải quyết các thách thức khoa học ngày càng phức tạp và đòi hỏi nhiều dữ liệu. Đây chính xác là những gì Đại học Kyoto đang tìm kiếm khi họ bắt đầu quá trình cập nhật hệ thống ACCMS HPC.

Giáo sư Fukazawa giải thích: “Vài năm trước, hệ thống HPC chính của chúng tôi được cấu hình xung quanh bộ xử lý Intel® Xeon Phi™ 7250. Thiết lập này bao gồm 16 GB MCDRAM và mặc dù hiệu suất tối đa là 3 TFlops, băng thông chỉ khoảng 400 GB/giây trên mỗi đơn vị, tạo ra giá trị B/F là 0,1333. Giá trị này thể hiện băng thông cao hơn so với bộ nhớ DDR4 tại thời điểm đó. Tuy nhiên, khoảng năm năm sau khi triển khai hệ thống trước đó, những tiến bộ trong công nghệ máy tính đã dẫn đến nhu cầu ngày càng tăng về khả năng tính toán nhanh hơn và lớn hơn. Hơn nữa, trên bộ xử lý Intel Xeon Phi, chúng tôi cũng quan sát thấy sự suy giảm hiệu suất với các ứng dụng không được vector hóa, điều này dường như bắt nguồn từ sự cố ở lõi CPU.”

 Siêu máy tính Camphor 3 tại Trung tâm Học thuật về Điện toán và Phương tiện Truyền thông (ACCMS) của Đại học Kyoto.

Trong bối cảnh HPC và siêu máy tính, nơi mô phỏng quy mô lớn và tính toán phức tạp là phổ biến, việc tối ưu hóa hiệu suất của hệ thống liên quan đến việc xem xét cả sức mạnh tính toán và hiệu quả truyền dữ liệu. Giá trị Byte/Flop (giá trị B/F) cung cấp thông tin chi tiết về mức độ hệ thống sử dụng tài nguyên tính toán của mình tốt như thế nào bằng cách chỉ ra lượng dữ liệu cần di chuyển cho mỗi phép toán dấu phẩy động. Xét đến điều này, Giáo sư Fukazawa nhấn mạnh rằng nhu cầu cấp thiết hiện nay là phải nâng cấp hệ thống hiện tại của họ bằng một CPU có giá trị B/F cao.

Vì vậy, dưới sự hướng dẫn của Giáo sư Fukazawa, ACCMS đã đảm nhận nhiệm vụ thiết kế các hệ thống mới kết hợp các công nghệ tiên tiến để giải quyết nhu cầu quan trọng về hiệu suất băng thông bộ nhớ cao hơn trong điện toán hiệu suất cao (HPC). Nguyên tắc thiết kế cốt lõi của các hệ thống này xoay quanh hệ thống ba cấu hình. Giáo sư Fukazawa cho biết: “Chúng tôi đã khởi xướng hệ thống ba cấu hình cách đây ba thế hệ, tập trung vào sức mạnh của xử lý nhiều lõi với băng thông bộ nhớ cao cho mã của chúng tôi, mục đích sử dụng chung và yêu cầu bộ nhớ lớn”.

Hình 1. Hệ thống ba cấu hình ACCMS.

Ông giải thích thêm về mục tiêu đằng sau chiến lược này, “Trong ba loại hệ thống (Hình 1)—Hệ thống A (Camphor 3), Hệ thống B (Laurel 3) và Hệ thống C (Cinnamon 3)—Camphor 3 được phần lớn người dùng sử dụng chủ yếu. Những người dùng này chủ yếu tham gia vào nghiên cứu liên quan đến việc sử dụng các ứng dụng được xây dựng riêng cho tính toán khoa học. Trên thực tế, nhiều người dùng thích sử dụng các ứng dụng được tạo ra trong giai đoạn này ở dạng ban đầu. Về bản chất, hơn 80 phần trăm các ứng dụng chạy trên Camphor 3 đòi hỏi giá trị B/F cao. Do đó, một CPU có thể phục vụ cho các nhu cầu này là bắt buộc.”

Tối đa hóa sức mạnh của bộ xử lý Intel® Xeon® để có hiệu suất tối ưu

Để đưa ra được những thiết kế mới, Giáo sư Fukazawa và nhóm của ông đã nghiên cứu các công nghệ mới nhất và chạy thử nghiệm các CPU Intel Xeon Chuỗi Max mới nhất. Điều này rất quan trọng vì bộ xử lý Intel® Xeon® mang lại giá trị tối đa, đặc biệt là về hiệu suất CPU. CPU Intel Xeon Chuỗi Max tăng cường bộ xử lý có khả năng thay đổi Intel® Xeon® với bộ nhớ băng thông cao (HBM) và được thiết kế để mở khóa hiệu suất và tốc độ khám phá trong khối lượng công việc sử dụng nhiều dữ liệu, chẳng hạn như mô hình hóa, trí tuệ nhân tạo, học sâu, điện toán hiệu năng cao (HPC) và phân tích dữ liệu.

CPU Intel Xeon Chuỗi Max được tối ưu hóa để tận dụng nhiều hệ sinh thái phần mềm bao gồm trình biên dịch, thư viện toán học, ứng dụng nguồn mở, v.v. Một lợi thế quan trọng khác là CPU Intel Xeon Chuỗi Max mang lại trải nghiệm liền mạch và cho phép hiệu suất tốt nhất trên nhiều khối lượng công việc khác nhau. Ngoài những lợi ích về hiệu suất, các hệ thống sử dụng CPU Intel Xeon Chuỗi Max còn hỗ trợ HBM để nâng cao hiệu suất tổng thể và đẩy nhanh quá trình nghiên cứu. Điều này có nghĩa là các nhà nghiên cứu có thể tập trung vào nghiên cứu thực sự của mình và không cần phải dành nhiều thời gian cho việc mã hóa và tối ưu hóa.

Giải thích lý do lựa chọn CPU Intel Xeon Chuỗi Max, Giáo sư Fukazawa cho biết: “Chúng tôi cần một CPU thân thiện với người dùng cho các ứng dụng trong hệ thống Đại học Kyoto, nghĩa là có giá trị B/F cao, CPU x86 với DDR5 và hệ thống x86 có bộ nhớ lớn. Và dựa trên nghiên cứu của chúng tôi, không có CPU nào ngoài Intel có thể đáp ứng được yêu cầu của chúng tôi.” Ông nói thêm: “Và khi đổi mới hệ thống, điều cần thiết là phải chọn cấu hình có giá trị B/F cao nhất có thể. Vào thời điểm đó, lựa chọn phải là CPU được trang bị bộ nhớ HBM và các lựa chọn chắc chắn sẽ thu hẹp lại còn hai lựa chọn: CPU Intel Xeon Chuỗi Max và một CPU khác. Tuy nhiên, khi xem xét hiệu suất tính toán, ngay cả khi chúng tôi sử dụng CPU là tùy chọn khác, hiệu suất tính toán cũng chỉ bằng khoảng một nửa so với CPU Intel Xeon Max, khiến CPU Xeon Max trở thành lựa chọn lý tưởng cho các yêu cầu của chúng tôi.”

“Mặt khác, mặc dù Laurel 3 không có nhu cầu cao về giá trị B/F như Camphor 3, nhưng vẫn có một loạt suy nghĩ nhấn mạnh đến nhu cầu về băng thông bộ nhớ rộng hơn. Do đó, chúng tôi bắt đầu xem xét khả năng sử dụng DDR5, nhưng tại thời điểm xem xét, có rất ít tùy chọn CPU hỗ trợ chính thức DDR5 và có thể đáp ứng hiệu suất yêu cầu, vì vậy chúng tôi đã đánh giá chuẩn từ một số ứng viên và tìm ra kết quả. Cuối cùng, bộ xử lý có khả năng thay đổi Intel Xeon thế hệ thứ 4 đã được chọn, sau khi cân nhắc đến thời điểm mua sắm và các yếu tố khác.” Giáo sư Fukazawa nói thêm.

 Hình 2 cho thấy Camphor 3 đạt tốc độ tăng trung bình gấp 4,7 lần so với thế hệ trước. Xem chú thích 1.

Hình 2. So sánh Camphor SPR+HBM với hệ thống KNL.

Cung cấp kết quả có ảnh hưởng

Với việc triển khai các hệ thống mới, Đại học Kyoto đã bắt đầu chứng kiến hiệu suất tăng đáng kể. Theo Giáo sư Fukazawa, “dựa trên các so sánh được thực hiện với các hệ thống thế hệ trước, Camphor 3 đã đạt được mức tăng tốc độ trung bình 4,7 lần,1 và Laurel 3 đang đạt được tốc độ tăng trung bình 3,7 lần.”1 (Hình 2 và 3)

Hình 3 cho thấy Laurel 3 đạt tốc độ tăng trung bình gấp 3,7 lần khi so sánh với hệ thống thế hệ trước. Xem chú thích 1.

Hình 3. So sánh hệ thống Laurel SPR+DDR với Broadwell.

Nhấn mạnh vào cách CPU Intel Xeon Chuỗi Max đóng một vai trò quan trọng trong việc thúc đẩy lợi thế hiệu suất này, Giáo sư Fukazawa nói: “Tại Trung tâm, chúng tôi đang tiến hành nghiên cứu có tên là nghiên cứu chung hỗ trợ mã hóa chương trình. Điều này bao gồm việc tiếp nhận mã của người dùng, tối ưu hóa mã đó trong khoảng thời gian khoảng một năm, sau đó trả lại cho người dùng. Trong trường hợp bộ xử lý Intel Xeon Phi, thường cần phải tối ưu hóa ứng dụng cho phù hợp để mang lại hiệu suất. Tuy nhiên, đối với CPU Intel Xeon Chuỗi Max, trình biên dịch và Thư viện hạt nhân toán học của Intel được sử dụng theo nguyên trạng, hiệu suất có thể dễ dàng được trích xuất mà không cần bất kỳ tối ưu hóa đặc biệt nào.”

Để làm rõ điểm này hơn, Giáo sư Fukazawa cung cấp một vài ví dụ về cách CPU Intel Xeon Chuỗi Max đóng một vai trò quan trọng trong việc thúc đẩy nghiên cứu và phát triển, “trong một trong những dự án mà tôi đã đảm nhận, tôi đã làm việc trên một ứng dụng liên quan đến việc giải quyết từ quyển toàn cầu bằng mô phỏng MHD 3D. Đây là ứng dụng có giá trị B/F cao và do từ quyển có kích thước lớn với khoảng cách lưới nhỏ nên phải mất hơn một năm để quan sát sự tiến triển theo thời gian. Tuy nhiên, với CPU Intel Xeon Chuỗi Max, tôi có thể đạt được kết quả với tốc độ nhanh hơn gấp đôi. Một ví dụ khác là mô hình lưu thông chung (GCM) được sử dụng để nghiên cứu tác động của hiện tượng nóng lên toàn cầu bằng cách chạy mô phỏng với nhiều thông số khác nhau. GCM cũng là ứng dụng B/F cao, cho phép các nhà nghiên cứu được hưởng lợi từ CPU Intel Xeon Chuỗi Max. Ứng dụng này giúp thực hiện mô phỏng với nhiều tham số và có thể xác định các tham số có thể làm giảm hiện tượng nóng lên toàn cầu.”

Chuẩn bị cho tương lai phía trước

ACCMS của Đại học Kyoto là biểu tượng của sự xuất sắc và đổi mới trong học thuật, cam kết mở đường cho vị thế dẫn đầu của Nhật Bản trong nghiên cứu tiên tiến. Với sự tận tâm không ngừng theo đuổi kiến thức và đột phá, ACCMS sẵn sàng tiếp tục hoạt động nghiên cứu học thuật có tác động lớn trên nhiều lĩnh vực khác nhau.

Để thực hiện cam kết này, Intel, công ty công nghệ hàng đầu thế giới, đang có vị thế để đóng vai trò quan trọng. Bằng cách mở rộng hỗ trợ công nghệ mạnh mẽ cho ACCMS, Intel mong muốn khuếch đại tác động của nghiên cứu học thuật, tạo điều kiện thuận lợi cho việc khám phá những ranh giới mới trong khoa học, công nghệ và nhiều lĩnh vực khác. Nỗ lực hợp tác này không chỉ thể hiện cam kết thúc đẩy hoạt động học thuật tại Đại học Kyoto mà còn là sự cống hiến lớn hơn cho việc đóng góp vào sự phát triển và tiến bộ chung của nhiều lĩnh vực khác nhau tại Nhật Bản và nhiều nơi khác. Thông qua sự hợp tác này, Intel cam kết trở thành chất xúc tác cho những tiến bộ mang tính chuyển đổi, thúc đẩy đổi mới và định hình tương lai của nghiên cứu học thuật trong nhiều lĩnh vực.

Nhắc lại nhu cầu thúc đẩy sự hợp tác này hơn nữa và đạt được các cột mốc do Đại học Kyoto đặt ra, Katsumi Yazawa, Giám đốc Phát triển Kinh doanh HPC, Đơn vị Kinh doanh Công nghiệp, Intel Nhật Bản kết luận: “Chúng tôi hoàn toàn hiểu rằng giá trị B/F rất quan trọng trên thị trường HPC. Tuy nhiên, các giải pháp triển khai HBM và đạt được băng thông bộ nhớ cao chắc chắn sẽ rất tốn kém. Do đó, tại Intel, chúng tôi hiểu các yêu cầu và đang cân nhắc nhiều công nghệ bộ nhớ mới. Trong tương lai gần, chúng tôi hy vọng có thể cải thiện giá trị B/F bằng cách cung cấp MCR-DIMM có cùng hệ số hình dạng với DDR nhưng có thể đạt được băng thông bộ nhớ gần gấp đôi. Với tư cách là cố vấn đáng tin cậy của Đại học Kyoto, Intel luôn tìm cách tăng cường sự hợp tác của chúng tôi và mong muốn cung cấp lộ trình đáp ứng các yêu cầu của giải pháp HBM trên HPC/AI trong mối quan hệ lâu dài của chúng tôi.”

Tải PDF xuống ›