Trillion Parameter Consortium (TCP)

Trillion Parameter Consortium (TPC) – IA generativa para hacer avanzar la ciencia y la ingeniería.

Presentación del Trillion Parameter Consortium (TPC) – IA generativa para hacer avanzar la innovación y el conocimiento en la ciencia y la ingeniería.

El objetivo general del consorcio es reunir a grupos interesados en construir, entrenar y utilizar modelos a gran escala con aquellos que construyen y operan sistemas informáticos a gran escala. La comunidad objetivo abarca:

(a) aquellos que trabajan en el desarrollo de métodos de IA, procesamiento de lenguaje natural/enfoques y arquitecturas multimodales, implementaciones completas, bibliotecas y marcos escalables, flujos de trabajo de IA, agregación, limpieza y organización de datos, tiempos de ejecución de entrenamiento, evaluación de modelos y adaptación posterior, alineación, etc.;

(b) aquellos que diseñan y construyen sistemas de hardware y software; y

(c) aquellos que en última instancia utilizarán los sistemas de IA resultantes para atacar una variedad de problemas en la ciencia, la ingeniería, la medicina y otros dominios.

Sobre el Trillion Parameter Consortium (TPC)

La génesis de esta idea de una colaboración internacional, el Trillion Parameter Consortium (TPC) – se remonta a unos años atrás, cuando quedó claro que:

(1) las plataformas exaescala emergentes que se están implementando en los laboratorios del DOE de EE.UU. (Frontier, Aurora, El Capitan, etc.) y sistemas similares en todo el mundo serían plataformas excelentes para entrenar y evaluar modelos de lenguaje a gran escala O(1012 parámetros) para ciencia e ingeniería, y

(2) construir LLM de última generación requerirá grandes asignaciones de tiempo de máquina (por ejemplo, =(30-100) días exaflop) para entrenamiento y ajuste, alineación y evaluación posteriores.

IA para la ciencia

Además, dada la escala del esfuerzo para preparar conjuntos de datos para el entrenamiento y la escala de ciclos que deben asignarse para construir y entrenar un modelo, quedó claro que, si bien la comunidad podría desarrollar una serie de modelos más pequeños de forma independiente y competir por ciclos, una comunidad más amplia de “IA para la ciencia” debe trabajar junta si queremos crear modelos que estén a la escala de los modelos privados más grandes.

La noción de reunir un consorcio de múltiples grupos interesados en estos objetivos se articuló por primera vez en la reunión DOE/MEXT/ADAC en R-CCS en Kobe, Japón, en febrero de 2023 y luego se exploró más a fondo en el Lusk Symposium en Argonne en abril de 2023. Al mismo tiempo, Argonne, RIKEN, Oak Ridge, BSC, CSC, Together, AI2 y otros han estado planificando proyectos independientes para entrenar a los LLM en máquinas existentes y recientemente implementadas ubicadas en varios centros HPC.

La mayoría de estos esfuerzos involucran a algún conjunto de socios de institutos académicos y de investigación, industrias y proveedores, además de los laboratorios y centros que albergan las máquinas. En estas conversaciones quedó aún más claro que había mucho que podíamos aprender unos de otros que podría mejorar nuestros esfuerzos individuales, y que podrían surgir nuevas colaboraciones que beneficiarían a muchos grupos.

Para obtener más información sobre TPC, consulte también la publicación inaugural sobre el consorcio y únase al espacio de trabajo de TPC en Slack.

Organizaciones participantes

Los socios fundadores de TPC provienen de las siguientes organizaciones (enumeradas en orden alfabético organizacional):

Acceleration Consortium at the University of Toronto

Agency for Science, Technology and Research (A*STAR)

Amazon Web Services, Inc (AWS)

AI Singapore

Allen Institute For AI

AMD

Argonne National Laboratory

Barcelona Supercomputing Center

Brookhaven National Laboratory

CalTech

CEA

Cerebras Systems

CINECA

CSC – IT Center for Science

CSIRO

Deep Forest Sciences

ETH Zürich

Fermilab National Accelerator Laboratory

Flinders University

Fujitsu Limited

Groq

Harvard University

HPE

Intel

Indiana University

INESC TEC

Inria

Juelich Supercomputing Center

Kotoba Technologies, Inc.

LAION

Lawrence Berkeley National Laboratory

Lawrence Livermore National Laboratory

Leibniz Supercomputing Centre

Los Alamos National Laboratory

Max Planck Computing & Data Facility (MPCDF)

Microsoft

National Center for Supercomputing Applications

National Energy Technology Laboratory

National Institute of Advanced Industrial Science and Technology (AIST)

National Renewable Energy Laboratory

National Supercomputing Centre, Singapore:

NCI Australia

New Zealand eScience Infrastructure:

Northwestern University

NVIDIA

Oak Ridge National Laboratory

Pacific Northwest National Laboratory

Pawsey Institute

Princeton Plasma Physics Laboratory

Princeton University

RIKEN

Rutgers University

SambaNova

Sandia National Laboratories

Seoul National University

SLAC National Accelerator Laboratory

Sony Research

Stanford University

STFC Rutherford Appleton Laboratory, UKRI

Stonybrook University

SURF

Texas Advanced Computing Center

Thomas Jefferson National Accelerator Facility

Together AI

Tokyo Institute of Technology

Université de Montréal

University of Buffalo

University of California San Diego/San Diego Supercomputer Center

University of Chicago

University of Delaware

University of Illinois Chicago

University of Illinois Urbana-Champaign

University of Michigan

University of New South Wales

University of Tokyo

University of Utah

University of Virginia