트랜스포머: Pytorch, TensorFlow 및 JAX를 위한 최첨단 머신 러닝
JAX, PyTorch 및 TensorFlow를 위한 최첨단 기계 학습
🤗 Transformers는 텍스트, 시각 및 오디오와 같은 다양한 양식에 대한 작업을 수행하기 위해 수천 개의 사전 훈련된 모델을 제공합니다.
이러한 모델은 다음에 적용할 수 있습니다.
- 100개 이상의 언어로 된 텍스트 분류, 정보 추출, 질문 응답, 요약, 번역, 텍스트 생성과 같은 작업을 위한 텍스트.
- ️ 이미지, 이미지 분류, 객체 감지 및 세분화와 같은 작업용.
- ️ 음성 인식 및 오디오 분류와 같은 작업을 위한 오디오.
변압기 모델은 다음 작업도 수행할 수 있습니다. 여러 가지 양식이 결합된 , 예: 테이블 질문 답변, 광학 문자 인식, 스캔 문서에서 정보 추출, 비디오 분류 및 시각적 질문 답변.
🤗 Transformers는 주어진 텍스트에서 사전 훈련된 모델을 빠르게 다운로드하여 사용하고, 자체 데이터 세트에서 미세 조정한 다음, 당사의 커뮤니티와 공유할 수 있는 API를 제공합니다. 모델 허브 . 동시에 아키텍처를 정의하는 각 파이썬 모듈은 완전히 독립형이며 빠른 연구 실험이 가능하도록 수정할 수 있습니다.
🤗 Transformers는 가장 인기 있는 세 가지 딥 러닝 라이브러리를 지원합니다 — 잭스 , 파이토치 그리고 텐서플로우 — 그들 사이의 원활한 통합. 다른 모델에 대한 추론을 위해 로드하기 전에 하나의 모델로 모델을 훈련시키는 것은 간단합니다.
온라인 데모
대부분의 모델을 다음 페이지에서 직접 테스트할 수 있습니다. 모델 허브 . 우리는 또한 제공합니다 비공개 모델 호스팅, 버전 관리 및 추론 API 공개 및 비공개 모델용.
다음은 몇 가지 예입니다.
자연어 처리:
빌린 콘텐츠 밖으로 이동할 수 없습니다
- BERT로 마스킹된 단어 완성
- Electra를 사용한 이름 개체 인식
- GPT-2를 사용한 텍스트 생성
- RoBERTa를 사용한 자연어 추론
- BART로 요약
- DitilBERT로 질문에 답하기
- T5로 번역
컴퓨터 비전에서:
오디오에서:
변압기로 쓰기 , Hugging Face 팀이 구축한 이 저장소의 텍스트 생성 기능에 대한 공식 데모입니다.
허깅페이스팀의 맞춤형 지원을 찾고 계시다면
빠른 둘러보기
주어진 입력(텍스트, 이미지, 오디오, ...)에 대한 모델을 즉시 사용하기 위해 |_+_| API. 파이프라인은 사전 훈련된 모델을 해당 모델의 훈련 중에 사용된 사전 처리와 함께 그룹화합니다. 긍정적인 텍스트와 부정적인 텍스트를 분류하기 위해 파이프라인을 빠르게 사용하는 방법은 다음과 같습니다.
|_+_|코드의 두 번째 줄은 파이프라인에서 사용하는 사전 훈련된 모델을 다운로드하고 캐시하고, 세 번째 줄은 주어진 텍스트에서 이를 평가합니다. 여기에서 답은 99.97%의 신뢰도로 '긍정적'입니다.
많은 NLP 작업에는 사전 훈련된 |_+_| 갈 준비가되었습니다. 예를 들어 컨텍스트가 주어진 경우 질문 답변을 쉽게 추출할 수 있습니다.
|_+_|여기에 사용된 사전 훈련된 모델은 답변 외에도 토큰화된 문장에서 답변의 시작 위치 및 끝 위치와 함께 신뢰도 점수를 반환했습니다. |_+_|에서 지원하는 작업에 대해 자세히 알아볼 수 있습니다. API의 이 튜토리얼 .
주어진 작업에서 사전 훈련된 모델을 다운로드하여 사용하려면 세 줄의 코드만 있으면 됩니다. 다음은 PyTorch 버전입니다.
|_+_|TensorFlow에 해당하는 코드는 다음과 같습니다.
|_+_|토크나이저는 사전 훈련된 모델이 예상하는 모든 사전 처리를 담당하며 단일 문자열(위의 예에서와 같이) 또는 목록에서 직접 호출할 수 있습니다. 다운스트림 코드에서 사용하거나 ** 인수 압축 풀기 연산자를 사용하여 모델에 직접 전달할 수 있는 사전을 출력합니다.
모델 자체는 일반 파이토치 |_+_| 또는 텐서플로우 |_+_| (백엔드에 따라 다름) 정상적으로 사용할 수 있습니다. 이 튜토리얼 이러한 모델을 고전적인 PyTorch 또는 TensorFlow 교육 루프에 통합하는 방법 또는 |_+_| 새 데이터 세트를 빠르게 미세 조정할 수 있는 API입니다.
왜 변압기를 사용해야 합니까?
사용하기 쉬운 최신 모델:
- 자연어 이해 및 생성, 컴퓨터 비전 및 오디오 작업에 대한 고성능.
- 교육자와 실무자의 진입 장벽이 낮습니다.
- 학습할 클래스가 3개뿐인 사용자 대면 추상화는 거의 없습니다.
- 모든 사전 훈련된 모델을 사용하기 위한 통합 API입니다.
컴퓨팅 비용 절감, 탄소 발자국 감소:
- 연구원은 항상 재훈련하는 대신 훈련된 모델을 공유할 수 있습니다.
- 실무자는 컴퓨팅 시간과 생산 비용을 줄일 수 있습니다.
- 20,000개 이상의 사전 훈련된 모델이 포함된 수십 개의 아키텍처(일부는 100개 이상의 언어로 제공됨).
모델 수명의 모든 부분에 적합한 프레임워크를 선택하십시오.
- 3줄의 코드로 최신 모델을 학습시킵니다.
- TF2.0/PyTorch/JAX 프레임워크 간에 단일 모델을 마음대로 이동합니다.
- 교육, 평가 및 생산에 적합한 프레임워크를 원활하게 선택하십시오.
필요에 따라 모델 또는 예를 쉽게 사용자 정의:
- 각 아키텍처에 대한 예제를 제공하여 원래 작성자가 게시한 결과를 재현합니다.
- 모델 내부는 가능한 한 일관되게 노출됩니다.
- 모델 파일은 빠른 실험을 위해 라이브러리와 독립적으로 사용할 수 있습니다.
변압기를 사용하면 안 되는 이유는 무엇입니까?
- 이 라이브러리는 신경망을 위한 빌딩 블록의 모듈식 도구 상자가 아닙니다. 모델 파일의 코드는 의도적으로 추가 추상화로 리팩토링되지 않으므로 연구원은 추가 추상화/파일에 뛰어들지 않고도 각 모델을 빠르게 반복할 수 있습니다.
- 교육 API는 어떤 모델에서도 작동하도록 고안되지 않았지만 라이브러리에서 제공하는 모델과 작동하도록 최적화되어 있습니다. 일반 기계 학습 루프의 경우 다른 라이브러리를 사용해야 합니다.
- 가능한 한 많은 사용 사례를 제시하기 위해 노력하고 있지만, 예제 폴더 예시입니다. 특정 문제에 대해 즉시 사용할 수 없으며 필요에 맞게 몇 줄의 코드를 변경해야 합니다.
설치
핍으로
이 저장소는 Python 3.6 이상, Flax 0.3.2 이상, PyTorch 1.3.1 이상 및 TensorFlow 2.3 이상에서 테스트되었습니다.
🤗 변압기를 설치해야 합니다. 가상 환경 . Python 가상 환경에 익숙하지 않은 경우 다음을 확인하십시오. 사용자 설명서 .
먼저 사용하려는 Python 버전으로 가상 환경을 만들고 활성화합니다.
그런 다음 Flax, PyTorch 또는 TensorFlow 중 하나 이상을 설치해야 합니다. 참조하십시오 TensorFlow 설치 페이지 , PyTorch 설치 페이지 및/또는 엷은 황갈색 그리고 잭스 플랫폼에 대한 특정 설치 명령에 관한 설치 페이지.
이러한 백엔드 중 하나가 설치되면 🤗 변압기는 다음과 같이 pip를 사용하여 설치할 수 있습니다.
|_+_|예제를 가지고 놀고 싶거나 코드의 최첨단이 필요하고 새 릴리스를 기다릴 수 없다면 다음을 수행해야 합니다. 소스에서 라이브러리 설치 .
콘다 포함
Transformers 버전 v4.0.0 이후로 이제 conda 채널이 있습니다: |_+_|.
🤗 변압기는 다음과 같이 conda를 사용하여 설치할 수 있습니다.
|_+_|Flax, PyTorch 또는 TensorFlow의 설치 페이지를 따라 conda로 설치하는 방법을 확인하세요.
모델 아키텍처
모든 모델 체크포인트 제공 🤗 Transformers는 huggingface.co에서 원활하게 통합됩니다. 모델 허브 그들이 직접 업로드하는 곳 사용자 그리고 조직 .
현재 체크포인트 수:
🤗 Transformers는 현재 다음 아키텍처를 제공합니다(참조 여기 각각에 대한 높은 수준의 요약을 위해):
- 알버트 (Google Research 및 Chicago의 Toyota Technological Institute에서) 논문과 함께 발표 ALBERT: 언어 표현의 자기 지도 학습을 위한 라이트 BERT , Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 작성.
- 바트 (페이스북에서) 논문과 함께 공개 BART: 자연어 생성, 번역 및 이해를 위한 잡음 제거 시퀀스-투-시퀀스 사전 교육 Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohammed, Omer Levy, Ves Stoyanov 및 Luke Zettlemoyer 작성.
- 바르테즈 (École polytechnique에서) 논문과 함께 발표 BARThez: 숙련된 사전 훈련 프랑스어 Sequence-to-Sequence 모델 Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis.
- 바트포 (VinAI Research에서) 논문과 함께 발표 BARTpho: 베트남어를 위한 사전 훈련된 Sequence-to-Sequence 모델 Nguyen Luong Tran, Duong Minh Le 및 Dat Quoc Nguyen.
- 베이트 (Microsoft에서) 논문과 함께 발표 BEiT: 이미지 변환기의 BERT 사전 훈련 by Hangbo Bao, Li Dong, Furu Wei.
- 버트 (Google에서) 논문과 함께 발표 BERT: 언어 이해를 위한 심층 양방향 변환기 사전 훈련 Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova 작성.
- BERTweet (VinAI Research에서) 논문과 함께 발표 BERTweet: 영어 트윗을 위한 사전 훈련된 언어 모델 Dat Quoc Nguyen, Thanh Vu 및 Anh Tuan Nguyen.
- 시퀀스 생성을 위한 BERT (Google에서) 논문과 함께 발표 시퀀스 생성 작업을 위해 사전 훈련된 체크포인트 활용 Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
- 빅버드-로베르타 (Google Research에서) 논문과 함께 발표 Big Bird: 더 긴 시퀀스를 위한 트랜스포머 Manzil Zaheer, 전문가 Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
- 빅버드-페가수스 (Google Research에서) 논문과 함께 발표 Big Bird: 더 긴 시퀀스를 위한 트랜스포머 Manzil Zaheer, 전문가 Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed.
- 블렌더봇 (페이스북에서) 논문과 함께 공개 오픈 도메인 챗봇 구축을 위한 레시피 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
- 블렌더봇작은 (페이스북에서) 논문과 함께 공개 오픈 도메인 챗봇 구축을 위한 레시피 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, Jason Weston.
- 떨어져 있는 (Alexa에서) 논문과 함께 발표 BERT를 위한 최적의 하위 아키텍처 추출 Adrian de Wyter 및 Daniel J. Perry 작성.
- ByT5 (Google Research에서) 논문과 함께 발표 ByT5: 사전 훈련된 바이트 대 바이트 모델로 토큰 없는 미래를 향해 Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel.
- 카망베르 (Inria/Facebook/Sorbonne에서) 논문과 함께 공개 CamemBERT: 맛있는 프랑스어 모델 Louis Martin*, Benjamin Muller*, Pedro Javier Ortiz Suarez*, Yoann Dupont, Laurent Romary, 성직자의 Eric Villemonte, Djame Seddah 및 Benoît Sagot.
- 송곳니 (Google Research에서) 논문과 함께 발표 CANINE: 언어 표현을 위한 효율적인 토큰화 없는 인코더 사전 훈련 Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting.
- 클립 (OpenAI에서) 논문과 함께 발표 자연어 감독에서 이전 가능한 시각적 모델 학습 Alec Radford, 김종욱, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever.
- 컨버버트 (YituTech에서) 논문과 함께 발표 ConvBERT: 스팬 기반 동적 컨볼루션으로 BERT 개선 Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan.
- CPM (청화대학교에서) 논문과 함께 발표 CPM: 대규모 생성 중국어 사전 훈련된 언어 모델 Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun
- CTRL 키 (Salesforce에서) 논문과 함께 발표 CTRL: 제어 가능한 생성을 위한 조건부 변환기 언어 모델 Nitish Shirish Keskar*, Bryan McCann*, Lav R. Varshney, Caiming Xiong 및 Richard Socher 작성.
- 데베르타 (Microsoft에서) 논문과 함께 발표 DeBERTa: 얽힌 주의력이 있는 디코딩 강화 BERT He Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen 작성.
- DeBERTa-v2 (Microsoft에서) 논문과 함께 발표 DeBERTa: 얽힌 주의력이 있는 디코딩 강화 BERT He Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen 작성.
- DeiT (페이스북에서) 논문과 함께 공개 주의를 통한 데이터 효율적인 이미지 변환기 및 증류 교육 Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou.
- DETR (페이스북에서) 논문과 함께 공개 변압기를 사용한 종단 간 물체 감지 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko.
- 대화GPT (Microsoft Research에서) 논문과 함께 발표 DialoGPT: 대화 응답 생성을 위한 대규모 생성 사전 훈련 Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan.
- 디스틸버트 (from HuggingFace), 논문과 함께 공개 BERT의 증류 버전인 DistillBERT: 더 작고, 더 빠르고, 더 저렴하고 더 가볍습니다. Victor Sanh, Lysandre Debut 및 Thomas Wolf. 동일한 방법이 GPT2를 압축하는 데 적용되었습니다. 증류GPT2 , 로버트타로 디스틸로베르타 , 다국어 BERT 로 디스틸림베르트 DitilBERT의 독일어 버전.
- DPR (페이스북에서) 논문과 함께 공개 개방형 도메인 질문 응답을 위한 밀집 통로 검색 Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen 및 Wen-tau Yih 작성.
- 인코더 디코더 (Google Research에서) 논문과 함께 발표 시퀀스 생성 작업을 위해 사전 훈련된 체크포인트 활용 Sascha Rothe, Shashi Narayan, Aliaksei Severyn.
- 일렉트라 (Google Research/Stanford University에서) 논문과 함께 발표 ELECTRA: 생성자가 아닌 판별자로 텍스트 인코더를 사전 훈련 Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning 작성.
- 플로베르 (CNRS에서) 논문과 함께 발표 FlauBERT: 프랑스어를 위한 비지도 언어 모델 사전 교육 Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouuteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab.
- FNet (Google Research에서) 논문과 함께 발표 FNet: 푸리에 변환과 토큰 혼합 James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon.
- 깔때기 변압기 (CMU/Google Brain에서) 논문과 함께 발표 Funnel-Transformer: 효율적인 언어 처리를 위한 순차 중복 필터링 작성자: Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le.
- GPT (OpenAI에서) 논문과 함께 발표 생성적 사전 훈련을 통한 언어 이해 향상 Alec Radford, Karthik Narasimhan, Tim Salimans 및 Ilya Sutskever.
- GPT-2 (OpenAI에서) 논문과 함께 발표 언어 모델은 감독되지 않는 멀티태스킹 학습자입니다. Alec Radford*, Jeffrey Wu*, Rewon Child, David Luan, Dario Amodei** 및 Ilya Sutskever**.
- GPT-J (EleutherAI에서) 저장소에서 릴리스됨 kingoflolz/mesh-transformer-jax 벤 왕과 아란 고마츠자키.
- GPT 네오 (EleutherAI에서) 저장소에서 릴리스됨 EleutherAI/gpt-neo Sid Black, Stella Biderman, Leo Gao, Phil Wang 및 Connor Leahy.
- 휴버트 (페이스북에서) 논문과 함께 공개 HuBERT: 은닉 유닛의 마스크 예측을 통한 자기 지도 음성 표현 학습 Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed.
- 아이버트 (버클리에서) 논문과 함께 발표 I-BERT: 정수 전용 BERT 양자화 김세훈, Amir Gholami, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer.
- 이미지GPT (OpenAI에서) 논문과 함께 발표 픽셀의 생성적 사전 훈련 Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, 전희우, David Luan, Ilya Sutskever.
- 레이아웃LM (Microsoft Research Asia에서) 논문과 함께 발표 LayoutLM: 문서 이미지 이해를 위한 텍스트 및 레이아웃 사전 훈련 by Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou.
- 레이아웃LMv2 (Microsoft Research Asia에서) 논문과 함께 발표 LayoutLMv2: 시각적으로 풍부한 문서 이해를 위한 다중 모드 사전 교육 by Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou.
- 레이아웃XLM (Microsoft Research Asia에서) 논문과 함께 발표 LayoutXLM: 시각적으로 풍부한 다국어 문서 이해를 위한 다중 모드 사전 교육 작성자: Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Furu Wei
- 주도의 (AllenAI에서) 논문과 함께 발표 Longformer: 긴 문서 변압기 저: Iz Beltagy, Matthew E. Peters, Arman Cohan.
- 롱포머 (AllenAI에서) 논문과 함께 발표 Longformer: 긴 문서 변압기 저: Iz Beltagy, Matthew E. Peters, Arman Cohan.
- 누가 (Studio Ousia에서) 논문과 함께 발표 LUKE: 엔티티 인식 자가 주의를 사용한 심층 컨텍스트화된 엔티티 표현 by Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto.
- 밀리크 (Studio Ousia에서) 논문과 함께 발표 MLUKE: 다국어 사전 훈련된 언어 모델에서 엔터티 표현의 힘 by Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka.
- LXMERT (UNC Chapel Hill에서) 논문과 함께 공개 LXMERT: 개방형 도메인 질문 응답을 위해 변환기에서 교차 모달리티 인코더 표현 학습 Hao Tan 및 Mohit Bansal.
- M2M100 (페이스북에서) 논문과 함께 공개 영어 중심의 다국어 기계 번역을 넘어서 Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edou , 아르망 줄랭.
- 마리안MT 다음을 사용하여 훈련된 기계 번역 모델 마리안 프레임워크 Microsoft 번역 팀에서 개발 중입니다.
- 곰 (페이스북에서) 논문과 함께 공개 신경 기계 번역을 위한 다국어 잡음 제거 사전 훈련 작성자: Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer.
- 엠바트-50 (페이스북에서) 논문과 함께 공개 확장 가능한 다국어 사전 교육 및 미세 조정을 통한 다국어 번역 작성자: Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan.
- 메가트론-BERT (NVIDIA에서) 논문과 함께 발표 Megatron-LM: 모델 병렬성을 사용하여 수십억 개의 매개변수 언어 모델 훈련 Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper 및 Bryan Catanzaro.
- 메가트론-GPT2 (NVIDIA에서) 논문과 함께 발표 Megatron-LM: 모델 병렬성을 사용하여 수십억 개의 매개변수 언어 모델 훈련 Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper 및 Bryan Catanzaro.
- MPNet (Microsoft Research에서) 논문과 함께 발표 MPNet: 언어 이해를 위한 마스크 및 순열 사전 교육 Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu.
- MT5 (Google AI에서) 논문과 함께 발표 mT5: 사전 훈련된 대규모 다국어 텍스트-텍스트 변환기 Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel.
- 새로운 현재 양식 (위스콘신 대학교 - 매디슨에서) 논문과 함께 발표 Nyströmformer: 자기 주의를 추정하기 위한 Nyström 기반 알고리즘 Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh.
- 페가수스 (Google에서) 논문과 함께 발표 PEGASUS: 추상적인 요약을 위한 추출된 공백 문장을 사용한 사전 훈련 Jingqing Zhang, Yao Zhao, Mohammad Saleh 및 Peter J. Liu 작성.
- 감지기 IO (Deepmind에서) 논문과 함께 발표 Perceiver IO: 구조화된 입력 및 출력을 위한 일반 아키텍처 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, João Carreira
- 포버트 (VinAI Research에서) 논문과 함께 발표 PhoBERT: 베트남어를 위한 사전 훈련된 언어 모델 Dat Quoc Nguyen과 Anh Tuan Nguyen.
- 예언자넷 (Microsoft Research에서) 논문과 함께 발표 ProphetNet: Sequence-to-Sequence 사전 훈련을 위한 미래 N-gram 예측 Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang 및 Ming Zhou.
- QDQ버트 (NVIDIA에서) 논문과 함께 발표 딥 러닝 추론을 위한 정수 양자화: 원리 및 경험적 평가 Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev 및 Paulius Micikevicius.
- 왕국 (Google Research에서) 논문과 함께 발표 REALM: 검색 증강 언어 모델 사전 훈련 Kelvin Guu, Kenton Lee, Zora Tung, Great Return 및 Ming-Wei Chang 작성.
- 개혁가 (Google Research에서) 논문과 함께 발표 리포머: 효율적인 변압기 Nikita Kitaev, Luke Kaiser, Anselm Levskaya.
- 렘버트 (Google Research에서) 논문과 함께 발표 사전 훈련된 언어 모델의 임베딩 커플링 재고 정형원, Thibault Févry, Henry Tsai, M. Johnson, Sebastian Ruder.
- 로베르타 (페이스북에서), 논문과 함께 공개 강력하게 최적화된 BERT 사전 훈련 접근 방식 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov.
- 로포머 (ZhuiyiTechnology에서), 논문 a와 함께 발표 RoFormer: 회전 위치 임베딩이 포함된 향상된 변압기 Jianlin Su 및 Yu Lu 및 Shengfeng Pan 및 Bo Wen 및 Yunfeng Liu 작성.
- 세그포머 (NVIDIA에서) 논문과 함께 발표 SegFormer: 트랜스포머를 사용한 시맨틱 분할을 위한 간단하고 효율적인 설계 Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo.
- 꿰매다 (ASAPP에서) 논문과 함께 발표 음성 인식을 위한 비지도 사전 훈련의 성능-효율성 트레이드오프 by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
- SEW-D (ASAPP에서) 논문과 함께 발표 음성 인식을 위한 비지도 사전 훈련의 성능-효율성 트레이드오프 by Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi.
- SpeechToText변환기 (페이스북에서), 논문과 함께 공개 Fairseq S2T: fairseq를 사용한 빠른 음성-텍스트 모델링 Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Dmytro Okhonko, Juan Pino.
- SpeechToTextTransformer2 (페이스북에서), 논문과 함께 공개 음성 번역을 위한 대규모 자체 및 반 지도 학습 Changhan Wu, Anne Wu, John Pino, Alexei Baevsky, Michael Auli, Alexis Conneau.
- 파편 (텔아비브 대학에서), 논문과 함께 발표 사전 훈련 스팬 선택을 통한 퓨샷 질문 답변 오리 램, 유발 커스테인, 조나단 베란트, 아미르 글로버슨, 오머 레비.
- 스퀴즈버트 (버클리에서) 논문과 함께 발표 SqueezeBERT: 컴퓨터 비전이 NLP에 효율적인 신경망에 대해 가르칠 수 있는 것은 무엇입니까? Forrest N. Iandola, Albert E. Shaw, Ravi Krishna 및 Kurt W. Keutzer 작성.
- 스윙 트랜스포머 (Microsoft에서) 논문과 함께 발표 Swin Transformer: Shifted Windows를 사용하는 계층적 비전 변환기 Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo.
- T5 (Google AI에서) 논문과 함께 발표 통합 텍스트-텍스트 변환기로 전이 학습의 한계 탐구 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu 작성.
- T5v1.1 (Google AI에서) 저장소에서 릴리스됨 google-research/text-to-text-transfer-transformer Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu 작성.
- 뚜껑 (Google AI에서) 논문과 함께 발표 TAPAS: 사전 훈련을 통한 Weakly Supervised Table Parsing Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno 및 Julian Martin Eisenschlos.
- 변압기-XL (Google/CMU에서) 논문과 함께 발표 Transformer-XL: 고정 길이 컨텍스트를 넘어선 세심한 언어 모델 작성자: Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.
- TrOCR (Microsoft에서), 논문과 함께 발표 TrOCR: 사전 훈련된 모델을 사용한 변압기 기반 광학 문자 인식 작성자: Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei.
- 유니스피치 (Microsoft Research에서) 논문과 함께 발표 UniSpeech: 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용한 통합 음성 표현 학습 작성자: Chengyi Wu, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang.
- UniSpeechSat (Microsoft Research에서) 논문과 함께 발표 UNISPEECH-SAT: 화자 인식 사전 교육을 통한 보편적인 연설 표현 학습 작성자: Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu.
- 원하다) (출처: 네이버 AI랩/카카오엔터프라이즈/카카오브레인) 논문과 함께 공개 ViLT: 컨볼루션 또는 영역 감독이 없는 시각 및 언어 변환기 by 김원재, 손보경, 김일두.
- 비전 변압기(ViT) (Google AI에서) 논문과 함께 발표 이미지는 16x16 단어의 가치가 있습니다: 대규모 이미지 인식을 위한 변압기 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby.
- ViTMAE) (메타 AI에서) 논문과 함께 발표 Masked Autoencoder는 확장 가능한 비전 학습자입니다. by Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick.
- 비주얼버트 (UCLA NLP에서) 논문과 함께 발표 VisualBERT: 시각 및 언어를 위한 간단하고 성능이 뛰어난 기준선 작성자: Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang.
- WavLM (Microsoft Research에서) 논문과 함께 발표 WavLM: 전체 스택 음성 처리를 위한 대규모 자체 지도 사전 교육 by Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael 쩡, 후루 웨이.
- Wav2Vec2 (페이스북 AI에서) 논문과 함께 공개 wav2vec 2.0: 음성 표현의 자기 지도 학습을 위한 프레임워크 Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli.
- Wav2Vec2Phoneme (페이스북 AI에서) 논문과 함께 공개 간단하고 효과적인 제로샷 교차 언어 음소 인식 Qiantong Xu, Alexei Baevski, Michael Auli.
- XLM (페이스북에서) 논문과 함께 공개 교차 언어 언어 모델 사전 교육 Guillaume Lample와 Alexis Conneau.
- XLM-ProphetNet (Microsoft Research에서) 논문과 함께 발표 ProphetNet: Sequence-to-Sequence 사전 훈련을 위한 미래 N-gram 예측 Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang 및 Ming Zhou.
- XLM-로베르타 (페이스북 AI에서) 논문과 함께 공개 대규모 비지도 교차 언어 표현 학습 Alexis Conneau*, Kartikay Khandelwal*, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzman, Edward Grave, Myle Ott, Luke Zettlemoyer 및 Veselin Stoyanov 작성.
- XLNet (Google/CMU에서) 논문과 함께 발표 XLNet: 언어 이해를 위한 일반화된 자동회귀 사전 훈련 작성자: Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le.
- XLSR-Wav2Vec2 (페이스북 AI에서) 논문과 함께 공개 음성 인식을 위한 비지도 교차 언어 표현 학습 Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli.
- XLS-R (페이스북 AI에서) 논문과 함께 공개 XLS-R: 규모에 따른 자가 지도 교차 언어 음성 표현 학습 Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli.
- 새로운 모델에 기여하고 싶으십니까? 우리는 추가했습니다 자세한 가이드 및 템플릿 새 모델을 추가하는 과정을 안내합니다. |_+_|에서 찾을 수 있습니다. 저장소의 폴더. PR을 시작하기 전에 기여 지침을 확인하고 유지 관리자에게 연락하거나 문제를 열어 피드백을 수집하십시오.
각 모델에 Flax, PyTorch 또는 TensorFlow의 구현이 있는지 또는 🤗 Tokenizers 라이브러리에서 지원하는 관련 토크나이저가 있는지 확인하려면 다음을 참조하세요. 이 테이블 .
이러한 구현은 여러 데이터 세트에서 테스트되었으며(예제 스크립트 참조) 원래 구현의 성능과 일치해야 합니다. 성능에 대한 자세한 내용은 의 예제 섹션에서 찾을 수 있습니다. 선적 서류 비치 .
json을 테이블에 반응
더 알아보기
부분 | 설명 |
---|---|
선적 서류 비치 | 전체 API 문서 및 자습서 |
작업 요약 | 🤗 Transformers에서 지원하는 작업 |
전처리 튜토리얼 | |_+_| 모델에 대한 데이터를 준비하는 클래스 |
훈련 및 미세 조정 | PyTorch/TensorFlow 교육 루프의 🤗 Transformers 및 |_+_|에서 제공하는 모델 사용 API |
빠른 둘러보기: 미세 조정/사용 스크립트 | 다양한 작업에서 모델을 미세 조정하기 위한 예제 스크립트 |
모델 공유 및 업로드 | 커뮤니티와 미세 조정된 모델 업로드 및 공유 |
이주 | |_+_|에서 🤗 트랜스포머로 마이그레이션 또는 |_+_| |
소환
우리는 이제 종이 🤗 Transformers 라이브러리에 대해 인용할 수 있습니다.
|_+_|다운로드 세부 정보:
작가:
소스 코드:
특허: