自然言語処理に関するおすすめの書籍

ChatGPT

ChatGPTを中心とした、GPT系の関連技術を紹介します。

ChatGPTの概要・ChatGPTとは
・ChatGPTができること
・ChatGPTの問題点
・ChatGPTの使用例
Perplexity Ask・Perplexity Askとは
・Perplexity Askの使い方
・質問事例集
新BingのAIチャットの概要と事例まとめ・新BingのAIチャットとは
・使い方
【GPT-4】今さら聞けない!GPT-4入門【ChatGPT】・GPT-4とは
・そもそもGPTとは
・GPT-4の特徴
・GPT-4とChatGPTの違い
・GPT-4の使用方法
・GPT-4の情報機密性
・GPT-4を使用することで情報は漏れないのか?
・生成された文章の著作権はどうなる?
ChatGPTを使いこなす!プロンプトエンジニアリング入門・プロンプトとは
・プロンプトを学べるサイト
・プロンプトエンジニアリングのベストプラクティス8箇条
【GPT-4】ChatGPTを社内で導入する際に検討するべきこと【ChatGPT】・GPT-4とChatGPT
・ChatGPT利用のリスクとは
・リスクと対策
「ChatGPT」に対抗? HuggingChatの概要と事例まとめ・HuggingChatとは
・使用例

大規模言語モデル(LLM)

【LLM】Google ColabでCerebras-GPT-13Bを実装する・Cerebras-GPT-13Bの概要
・英語の場合
・日本語の場合
【LLM】Google ColabでStableLMを実装する・StableLMの概要
・英語の場合
【LLM】Google ColabでDolly 2.0を実装する・Dolly 2.0の概要
・英語の場合
・日本語の場合
【日本語LLM】Google ColabでLLM-jp-13Bを実装する・LLM-jp-13Bの概要
・LLM-jp-13Bの性能

Huggingface Transformers入門

Huggingface Transformersを中心に、最新の自然言語処理技術の実装を紹介します。

【🔰Huggingface Transformers入門⓪】自然言語処理とTransformers・自然言語処理とTransformer
・Transformerと
・Transformerのアーキテクチャ
・事前学習とファインチューニング
・Huggingface Transformersとは
【🔰Huggingface Transformers入門①】モデルの概要と使い方・Transformerとは
・Transformer系の派生モデル
・Huggingface Transformers モデルの使い方
・モデルの保存と読み込み
【🔰Huggingface Transformers入門②】トークナイザーの概要と使い方・Tokenizerとは
・トークン化とは
・WordPieceによるトークン化
・日本語のTokenizer
・トークナイザーとモデル
【🔰Huggingface Transformers入門③】huggingface datasetsの使い方・Huggingface Transformers Datasetsの導入
・Huggingface Transformers Datasetsの基本操作
・データセットの可視化
・ローカルのデータセットを使用する
【🔰Huggingface Transformers入門④】 パイプラインによるタスク紹介Huggingface Transformersの入門として、概要と基本的なタスクのデモを紹介します。
pipelineによる実装を通じて、タスクのイメージをつかんでいきましょう。
【🔰Huggingface Transformers入門⑤】トークナイザーとモデルによるタスク紹介〜Huggingface Transformersの入門として、概要と基本的なタスクのデモを紹介します。
トークナイザーによる実装を通じて、タスクの理解を深めていきましょう。
【🔰Huggingface Transformers入門⑥】文章分類モデルを作成する(1) 〜CSVからデータセットを作成する〜・Huggingface Transformersとは
・学習データの準備方法
・データセットの構成を確認する
・公開データにラベル付けをする
【🔰Huggingface Transformers入門⑦】文章分類モデルを作成する(2) 〜学習〜・Huggingface Transformersとは
・学習データの準備
・学習
・評価
【🔰Huggingface Transformers入門⑧】文章分類モデルを作成する(3) 〜モデルの評価と推論〜・学習済みモデルの読み込み
・評価指標(混同行列、適合率(precision)、再現率(recall)、F1スコア、正解率(accuracy))
【🔰Huggingface Transformers入門⑨】文章分類モデルを作成する(4) 〜推論結果をLIMEで可視化する〜・学習と推論(前回までの内容)
・推論結果の可視化手法
・推論結果の出力
・LIMEによる可視化の実装

タスク別実装

Huggingface Transformersを中心に、最新の自然言語処理技術の実装をタスク別に紹介します。

【文章分類】日本語のテキスト分類を学習から推論までを実装する・テキスト分類モデルの学習
・テキスト分類モデルの評価
・スクレイピングでニュースサイトの記事を取得してニュースのカテゴリ分類を実装する
【文章分類】日本語の感情分析の推論を実装する感情分析の推論を実装する
・感情分析の実装(英語)
・感情分析の実装(日本語)
・ニュース記事のデータセットから感情分析
【質問応答】英語の質問応答の実装 〜学習から推論まで〜・「SQuAD」データセット
・質問応答の学習
・質問応答の推論
【質問応答】日本語の質問応答の実装 〜学習から推論まで〜・質問応答のデータセット
・質問応答の学習(日本語)
・質問応答の推論(日本語)
【言語モデル】日本語のマスク言語モデリングの実装 〜学習から推論まで〜・学習済モデルによるマスク言語モデリングの推論
・マスク言語モデリングのファインチューニング
・作成したモデルによる推論
【文章生成】「 japanese-gpt-1b」で日本語のテキスト生成を実装する・「japanese-gpt-1b」とは
・テキスト生成(サンプル)
・テキスト生成(指定した語彙を追加するforce_words_ids)
【文章生成】日本語テキスト生成のファインチューニングを実装する・日本語版のテキスト生成学習済モデル
・「japanese-gpt2-medium」によるテキスト生成のファインチューニング
【要約】英語の要約タスクの推論と評価方法・要約タスクに使用するデータセット(The CNN/DailyMail Dataset)
・各学習済モデルを使用した要約の推論(GPT2、T5、BART、PEGASUS)
・要約文の定量的な評価方法(ROUGEスコア)
【要約】日本語の要約タスク 〜学習から推論まで〜・日本語の要約タスクに使用するデータセット
・日本語の要約タスクの学習
・日本語の要約タスクの推論
・要約文の定量的な評価方法(参考)
【翻訳】日本語↔英語の翻訳を実装する・翻訳の実装(英語から日本語)
・翻訳の実装(日本語から英語)

自然言語処理

自然言語処理に関する基礎的な事項を紹介します。

【🔰自然言語処理】形態素解析とは・形態素解析とは
・形態素解析のライブラリ
・GiNZAによる形態素解析
【🔰自然言語処理】単語の分散表現とWord2Vec・単語の分散表現とは
・Word2Vecによる単語ベクトル
・単語・文章の類似度計算
【🔰自然言語処理】単語の分散表現② Word2VecとBERT・単語の分散表現とは
・BERTによる単語ベクトル
・単語・文章の類似度計算

自然言語処理で使用するライブラリ

GiNZAまとめ①・GiNZAとは
・GiNZAでできること(形態素解析、構文分析、固有表現抽出など)
・関係リンクの紹介
GiNZAまとめ②・GiNZAの導入
・形態素解析
・品詞の抽出
・レンマの抽出
・係り受け解析
・分境界解析
GiNZAまとめ③・GiNZAの導入
・固有表現抽出
・固有表現の追加

Python入門

Google Colabの使い方はこちら