自然言語処理に関するおすすめの書籍
ChatGPT
ChatGPTを中心とした、GPT系の関連技術を紹介します。
ChatGPTの概要 | ・ChatGPTとは ・ChatGPTができること ・ChatGPTの問題点 ・ChatGPTの使用例 |
Perplexity Ask | ・Perplexity Askとは ・Perplexity Askの使い方 ・質問事例集 |
新BingのAIチャットの概要と事例まとめ | ・新BingのAIチャットとは ・使い方 |
【GPT-4】今さら聞けない!GPT-4入門【ChatGPT】 | ・GPT-4とは ・そもそもGPTとは ・GPT-4の特徴 ・GPT-4とChatGPTの違い ・GPT-4の使用方法 ・GPT-4の情報機密性 ・GPT-4を使用することで情報は漏れないのか? ・生成された文章の著作権はどうなる? |
ChatGPTを使いこなす!プロンプトエンジニアリング入門 | ・プロンプトとは ・プロンプトを学べるサイト ・プロンプトエンジニアリングのベストプラクティス8箇条 |
【GPT-4】ChatGPTを社内で導入する際に検討するべきこと【ChatGPT】 | ・GPT-4とChatGPT ・ChatGPT利用のリスクとは ・リスクと対策 |
「ChatGPT」に対抗? HuggingChatの概要と事例まとめ | ・HuggingChatとは ・使用例 |
大規模言語モデル(LLM)
【LLM】Google ColabでCerebras-GPT-13Bを実装する | ・Cerebras-GPT-13Bの概要 ・英語の場合 ・日本語の場合 |
【LLM】Google ColabでStableLMを実装する | ・StableLMの概要 ・英語の場合 |
【LLM】Google ColabでDolly 2.0を実装する | ・Dolly 2.0の概要 ・英語の場合 ・日本語の場合 |
【日本語LLM】Google ColabでLLM-jp-13Bを実装する | ・LLM-jp-13Bの概要 ・LLM-jp-13Bの性能 |
Huggingface Transformers入門
Huggingface Transformersを中心に、最新の自然言語処理技術の実装を紹介します。
【🔰Huggingface Transformers入門⓪】自然言語処理とTransformers | ・自然言語処理とTransformer ・Transformerと ・Transformerのアーキテクチャ ・事前学習とファインチューニング ・Huggingface Transformersとは |
【🔰Huggingface Transformers入門①】モデルの概要と使い方 | ・Transformerとは ・Transformer系の派生モデル ・Huggingface Transformers モデルの使い方 ・モデルの保存と読み込み |
【🔰Huggingface Transformers入門②】トークナイザーの概要と使い方 | ・Tokenizerとは ・トークン化とは ・WordPieceによるトークン化 ・日本語のTokenizer ・トークナイザーとモデル |
【🔰Huggingface Transformers入門③】huggingface datasetsの使い方 | ・Huggingface Transformers Datasetsの導入 ・Huggingface Transformers Datasetsの基本操作 ・データセットの可視化 ・ローカルのデータセットを使用する |
【🔰Huggingface Transformers入門④】 パイプラインによるタスク紹介 | Huggingface Transformersの入門として、概要と基本的なタスクのデモを紹介します。 pipelineによる実装を通じて、タスクのイメージをつかんでいきましょう。 |
【🔰Huggingface Transformers入門⑤】トークナイザーとモデルによるタスク紹介〜 | Huggingface Transformersの入門として、概要と基本的なタスクのデモを紹介します。 トークナイザーによる実装を通じて、タスクの理解を深めていきましょう。 |
【🔰Huggingface Transformers入門⑥】文章分類モデルを作成する(1) 〜CSVからデータセットを作成する〜 | ・Huggingface Transformersとは ・学習データの準備方法 ・データセットの構成を確認する ・公開データにラベル付けをする |
【🔰Huggingface Transformers入門⑦】文章分類モデルを作成する(2) 〜学習〜 | ・Huggingface Transformersとは ・学習データの準備 ・学習 ・評価 |
【🔰Huggingface Transformers入門⑧】文章分類モデルを作成する(3) 〜モデルの評価と推論〜 | ・学習済みモデルの読み込み ・評価指標(混同行列、適合率(precision)、再現率(recall)、F1スコア、正解率(accuracy)) |
【🔰Huggingface Transformers入門⑨】文章分類モデルを作成する(4) 〜推論結果をLIMEで可視化する〜 | ・学習と推論(前回までの内容) ・推論結果の可視化手法 ・推論結果の出力 ・LIMEによる可視化の実装 |
タスク別実装
Huggingface Transformersを中心に、最新の自然言語処理技術の実装をタスク別に紹介します。
【文章分類】日本語のテキスト分類を学習から推論までを実装する | ・テキスト分類モデルの学習 ・テキスト分類モデルの評価 ・スクレイピングでニュースサイトの記事を取得してニュースのカテゴリ分類を実装する |
【文章分類】日本語の感情分析の推論を実装する | 感情分析の推論を実装する ・感情分析の実装(英語) ・感情分析の実装(日本語) ・ニュース記事のデータセットから感情分析 |
【質問応答】英語の質問応答の実装 〜学習から推論まで〜 | ・「SQuAD」データセット ・質問応答の学習 ・質問応答の推論 |
【質問応答】日本語の質問応答の実装 〜学習から推論まで〜 | ・質問応答のデータセット ・質問応答の学習(日本語) ・質問応答の推論(日本語) |
【言語モデル】日本語のマスク言語モデリングの実装 〜学習から推論まで〜 | ・学習済モデルによるマスク言語モデリングの推論 ・マスク言語モデリングのファインチューニング ・作成したモデルによる推論 |
【文章生成】「 japanese-gpt-1b」で日本語のテキスト生成を実装する | ・「japanese-gpt-1b」とは ・テキスト生成(サンプル) ・テキスト生成(指定した語彙を追加するforce_words_ids) |
【文章生成】日本語テキスト生成のファインチューニングを実装する | ・日本語版のテキスト生成学習済モデル ・「japanese-gpt2-medium」によるテキスト生成のファインチューニング |
【要約】英語の要約タスクの推論と評価方法 | ・要約タスクに使用するデータセット(The CNN/DailyMail Dataset) ・各学習済モデルを使用した要約の推論(GPT2、T5、BART、PEGASUS) ・要約文の定量的な評価方法(ROUGEスコア) |
【要約】日本語の要約タスク 〜学習から推論まで〜 | ・日本語の要約タスクに使用するデータセット ・日本語の要約タスクの学習 ・日本語の要約タスクの推論 ・要約文の定量的な評価方法(参考) |
【翻訳】日本語↔英語の翻訳を実装する | ・翻訳の実装(英語から日本語) ・翻訳の実装(日本語から英語) |
自然言語処理
自然言語処理に関する基礎的な事項を紹介します。
【🔰自然言語処理】形態素解析とは | ・形態素解析とは ・形態素解析のライブラリ ・GiNZAによる形態素解析 |
【🔰自然言語処理】単語の分散表現とWord2Vec | ・単語の分散表現とは ・Word2Vecによる単語ベクトル ・単語・文章の類似度計算 |
【🔰自然言語処理】単語の分散表現② Word2VecとBERT | ・単語の分散表現とは ・BERTによる単語ベクトル ・単語・文章の類似度計算 |
自然言語処理で使用するライブラリ
GiNZAまとめ① | ・GiNZAとは ・GiNZAでできること(形態素解析、構文分析、固有表現抽出など) ・関係リンクの紹介 |
GiNZAまとめ② | ・GiNZAの導入 ・形態素解析 ・品詞の抽出 ・レンマの抽出 ・係り受け解析 ・分境界解析 |
GiNZAまとめ③ | ・GiNZAの導入 ・固有表現抽出 ・固有表現の追加 |
Python入門
Google Colabの使い方はこちら