Trillion Parameter Consortium (TPC) – IA generativa para hacer avanzar la ciencia y la ingeniería.
Presentación del Trillion Parameter Consortium (TPC) – IA generativa para hacer avanzar la innovación y el conocimiento en la ciencia y la ingeniería.
El objetivo general del consorcio es reunir a grupos interesados en construir, entrenar y utilizar modelos a gran escala con aquellos que construyen y operan sistemas informáticos a gran escala. La comunidad objetivo abarca:
(a) aquellos que trabajan en el desarrollo de métodos de IA, procesamiento de lenguaje natural/enfoques y arquitecturas multimodales, implementaciones completas, bibliotecas y marcos escalables, flujos de trabajo de IA, agregación, limpieza y organización de datos, tiempos de ejecución de entrenamiento, evaluación de modelos y adaptación posterior, alineación, etc.;
(b) aquellos que diseñan y construyen sistemas de hardware y software; y
(c) aquellos que en última instancia utilizarán los sistemas de IA resultantes para atacar una variedad de problemas en la ciencia, la ingeniería, la medicina y otros dominios.
Sobre el Trillion Parameter Consortium (TPC)
La génesis de esta idea de una colaboración internacional, el Trillion Parameter Consortium (TPC) – se remonta a unos años atrás, cuando quedó claro que:
(1) las plataformas exaescala emergentes que se están implementando en los laboratorios del DOE de EE.UU. (Frontier, Aurora, El Capitan, etc.) y sistemas similares en todo el mundo serían plataformas excelentes para entrenar y evaluar modelos de lenguaje a gran escala O(1012 parámetros) para ciencia e ingeniería, y
(2) construir LLM de última generación requerirá grandes asignaciones de tiempo de máquina (por ejemplo, =(30-100) días exaflop) para entrenamiento y ajuste, alineación y evaluación posteriores.
IA para la ciencia
Además, dada la escala del esfuerzo para preparar conjuntos de datos para el entrenamiento y la escala de ciclos que deben asignarse para construir y entrenar un modelo, quedó claro que, si bien la comunidad podría desarrollar una serie de modelos más pequeños de forma independiente y competir por ciclos, una comunidad más amplia de “IA para la ciencia” debe trabajar junta si queremos crear modelos que estén a la escala de los modelos privados más grandes.
La noción de reunir un consorcio de múltiples grupos interesados en estos objetivos se articuló por primera vez en la reunión DOE/MEXT/ADAC en R-CCS en Kobe, Japón, en febrero de 2023 y luego se exploró más a fondo en el Lusk Symposium en Argonne en abril de 2023. Al mismo tiempo, Argonne, RIKEN, Oak Ridge, BSC, CSC, Together, AI2 y otros han estado planificando proyectos independientes para entrenar a los LLM en máquinas existentes y recientemente implementadas ubicadas en varios centros HPC.
La mayoría de estos esfuerzos involucran a algún conjunto de socios de institutos académicos y de investigación, industrias y proveedores, además de los laboratorios y centros que albergan las máquinas. En estas conversaciones quedó aún más claro que había mucho que podíamos aprender unos de otros que podría mejorar nuestros esfuerzos individuales, y que podrían surgir nuevas colaboraciones que beneficiarían a muchos grupos.
Para obtener más información sobre TPC, consulte también la publicación inaugural sobre el consorcio y únase al espacio de trabajo de TPC en Slack.
Organizaciones participantes
Los socios fundadores de TPC provienen de las siguientes organizaciones (enumeradas en orden alfabético organizacional):
Acceleration Consortium at the University of Toronto
Agency for Science, Technology and Research (A*STAR)
Amazon Web Services, Inc (AWS)
AI Singapore
Allen Institute For AI
AMD
Argonne National Laboratory
Barcelona Supercomputing Center
Brookhaven National Laboratory
CalTech
CEA
Cerebras Systems
CINECA
CSC – IT Center for Science
CSIRO
Deep Forest Sciences
ETH Zürich
Fermilab National Accelerator Laboratory
Flinders University
Fujitsu Limited
Groq
Harvard University
HPE
Intel
Indiana University
INESC TEC
Inria
Juelich Supercomputing Center
Kotoba Technologies, Inc.
LAION
Lawrence Berkeley National Laboratory
Lawrence Livermore National Laboratory
Leibniz Supercomputing Centre
Los Alamos National Laboratory
Max Planck Computing & Data Facility (MPCDF)
Microsoft
National Center for Supercomputing Applications
National Energy Technology Laboratory
National Institute of Advanced Industrial Science and Technology (AIST)
National Renewable Energy Laboratory
National Supercomputing Centre, Singapore:
NCI Australia
New Zealand eScience Infrastructure:
Northwestern University
NVIDIA
Oak Ridge National Laboratory
Pacific Northwest National Laboratory
Pawsey Institute
Princeton Plasma Physics Laboratory
Princeton University
RIKEN
Rutgers University
SambaNova
Sandia National Laboratories
Seoul National University
SLAC National Accelerator Laboratory
Sony Research
Stanford University
STFC Rutherford Appleton Laboratory, UKRI
Stonybrook University
SURF
Texas Advanced Computing Center
Thomas Jefferson National Accelerator Facility
Together AI
Tokyo Institute of Technology
Université de Montréal
University of Buffalo
University of California San Diego/San Diego Supercomputer Center
University of Chicago
University of Delaware
University of Illinois Chicago
University of Illinois Urbana-Champaign
University of Michigan
University of New South Wales
University of Tokyo
University of Utah
University of Virginia