物体検出 実装まとめ
YOLOv7まとめ(2022年最新版)
このシリーズでは物体検出でお馴染みのYOLOシリーズの最新版「YOLOv7」について、環境構築から学習の方法までまとめます。
YOLOv7は2022年7月に公開された最新バージョンであり、速度と精度の面で限界を押し広げています。
YOLOV5まとめ🔰
「YOLOv5」を用いて、物体検出の実装を学びます。
環境構築から学習の方法、さらに活用方法までをまとめます。
簡単に実装することができますので、ぜひ最後までご覧ください。
G検定 まとめ
要点整理&当日用カンペ
G検定の要点をシラバスから抜粋してまとめました。
これから学習する方も、復習したい方にもお使いいただけます。
試験当日用のG検定カンニングペーパーとしてもお役立てください。
タスク別 まとめ
画像処理(画像生成・超解像・画像修復・アニメーション)まとめ
AI画像生成として有名な「Stable Diffusion」をはじめ、超解像、画像修復などのAIによる画像処理に関する記事をまとめました
【Transformer】自然言語処理まとめ
現在の自然言語処理の主流である「Transformer」を中心に、「Huggingface Transformers」による最新の自然言語処理についてまとめます。
最近の投稿
【G検定】MSE(平均二乗誤差)・RMSE(二乗平均平方根誤差)・MAE(平均絶対値誤差)
MSE(平均二乗誤差) MSEは、モデルの予測値と正解値との差の二乗の平均を取ったものです。この関数を最小化することで、モデルの予測性能を向上させることができます。例えば、ある値を10と予測したときに実際の値が8だった場 […]
【G検定】マルコフ決定過程
マルコフ決定過程 マルコフ決定過程とは マルコフ決定過程は、不確実性を含む環境下での意思決定を数学的にモデル化したものです。この概念は、機械学習、特に強化学習の分野で広く用いられています。マルコフ決定過程の基盤となるのは […]
【G検定】方策勾配法
方策勾配法 方策勾配法とは 方策勾配法は、強化学習において直接的に最適な方策(行動の選び方)を見つけ出すアプローチです。従来のQ学習などの手法が価値関数を通じて間接的に最適な方策を求めるのに対し、方策勾配法はより直接的な […]
【G検定】UCB 方策
UCB 方策 強化学習の過程で重要となるのが、「探索」と「活用」のバランスを取ることです。UCB方策(Upper Confidence Bound Policy)は、このバランスを効果的に取るための手法の一つとして知られ […]
【G検定】REINFORCE
REINFORCE REINFORCEアルゴリズム 強化学習は、エージェントが環境と相互作用しながら最適な行動を学習する手法として知られています。この分野において、REINFORCEアルゴリズムは特筆すべき存在です。多く […]
【G検定】コールドスタート問題
コールドスタート問題 レコメンドシステムの課題 オンラインショッピングやコンテンツ配信サービスでは、ユーザーに合わせた提案を行うレコメンドシステムが広く使われています。このシステムの中核を担うのが協調フィルタリングという […]
【G検定】ランダムフォレストランダムフォレスト
ランダムフォレスト ランダムフォレストは、機械学習の分野で広く用いられる手法の一つです。その名前が示すように、この手法は「森」のように多数の「木」を使って予測や分類を行います。具体的には、決定木と呼ばれる構造を複数組み合 […]
【G検定】マージン最大化
マージン最大化 マージン最大化とは マージン最大化とは、異なるクラスのデータポイント間に引かれる決定境界線(または超平面)と、その境界線に最も近いデータポイントとの距離を可能な限り大きくすることを意味します。この「距離」 […]
【G検定】ε-greedy方策
ε-greedy方策 強化学習における行動選択の課題 強化学習では、エージェントが環境と相互作用しながら、最終的な報酬を最大化するような行動を学習していきます。しかし、常に最適と思われる行動を選ぶだけでは、新しい可能性を […]
【G検定】Actor-Critic
Actor-Critic Actor-Criticとは Actor-Criticモデルは、強化学習における効果的なアプローチの一つです。このモデルは、行動を選択する「Actor(行動器)」と、その行動の価値を評価する「C […]
【G検定】特異値分解 (SVD)
特異値分解 (SVD) 特異値分解は、複雑な行列を簡単な要素に分解する強力な数学的手法です。この手法は、大量のデータを含む行列から本質的な情報を抽出するのに非常に有効です。 特異値分解とは 特異値分解は、任意の行列Aを3 […]
【G検定】ベクトル自己回帰モデル (VARモデル)
ベクトル自己回帰モデル (VARモデル) 時系列データとは 私たちの身の回りには、時間とともに変化するデータが数多く存在します。例えば、日々の株価の変動、年ごとの世界人口の推移、あるいはインターネット通信におけるパケット […]
【G検定】人間の神経回路
人間の神経回路 脳の基本構造と神経細胞の働き 人間の脳は、複雑かつ精巧な神経回路によって構成されています。この神経回路は、数千億個もの神経細胞(ニューロン)が互いに連結し、情報を伝達することで機能しています。各神経細胞は […]
【G検定】レコメンデーションエンジン
レコメンデーションエンジン レコメンデーションエンジンは、現代のデジタルサービスにおいて欠かせない存在となっています。オンラインショッピングサイトや動画配信プラットフォームなど、私たちが日常的に利用するさまざまなサービス […]
【G検定】ビッグデータ
ビッグデータ ビッグデータの定義と特徴 ビッグデータとは、インターネットの発展と共に蓄積された膨大な量のデジタルデータを指します。これらのデータは、従来のデータベース管理ツールでは処理が困難なほど大規模で複雑です。ビッグ […]
【G検定】スパムフィルター
スパムフィルター メール通信の安全を守るスパムフィルター 私たちの日常生活に欠かせないメールですが、残念ながら迷惑メール(スパムメール)も数多く飛び交っています。そこで登場したのが、スパムフィルターです。スパムフィルター […]
【G検定】東ロボくん
東ロボくん プロジェクトの概要と目的 東ロボくんは、2011年に始まった「ロボットを東京大学に合格させる」というプロジェクトで開発された人工知能システムです。このプロジェクトの主な目的は、人工知能技術の可能性を探るだけで […]
【G検定】データマイニング
データマイニング データマイニングとは データマイニングは、膨大なデータの山から有用な情報や知識を掘り出す先進的な技術です。近年のデジタル化の進展に伴い、企業や組織が日々大量のデータを生成・収集するようになりました。この […]
【G検定】セマンティックWeb
セマンティックWeb セマンティックWebとは セマンティックWebは、現在のインターネットをより賢くし、人間とコンピュータの両方にとって理解しやすい形に進化させる構想です。この技術は、ウェブ上の情報に意味や文脈を付与す […]
【G検定】ウェブマイニング
ウェブマイニング ウェブマイニングとは、インターネット上に存在する膨大なデータから有用な情報や知識を抽出する技術です。これは、データマイニングの一分野であり、特にウェブ上のデータを対象としています。現代社会において、ウェ […]
【G検定】インタビューシステム
インタビューシステム 専門知識の獲得における課題 人工知能の発展において、専門家の知識をコンピュータシステムに取り込むことは常に大きな課題でした。特に、高度に専門化された分野では、その知識が体系化されていないことが多く、 […]
【G検定】Question-Answering
Question-Answering Question-Answering(質問応答)システムの仕組み Question-Answering(質問応答)は、人工知能の研究分野の一つで、コンピュータシステムが人間の質問に対 […]
【G検定】DENDRAL
DENDRAL DENDRALとは DENDRALは、1960年代にスタンフォード大学で開発された画期的な人工知能プロジェクトです。エドワード・ファイゲンバウム、ブルース・ブキャナン、ジョシュア・レーダーバーグ、カール・ […]
【G検定】ハノイの塔
ハノイの塔 ハノイの塔は、数学的思考と問題解決能力を養うための古典的なパズルゲームです。このパズルは、単純な規則の中に深い複雑さを秘めており、コンピュータサイエンスの分野でも重要な概念を学ぶための題材として広く用いられて […]
【G検定】Mini-Max法
Mini-Max法 Mini-Max法とは Mini-Max法は、ゲーム理論において広く用いられる戦略決定アルゴリズムです。この手法は、特に二人零和有限確定完全情報ゲーム(チェスや将棋など)において効果的です。名称の由来 […]
【G検定】ローブナーコンテスト
ローブナーコンテスト 人工知能と人間の境界線を探る挑戦 ローブナーコンテストは、人工知能の分野において画期的な取り組みとして知られています。この大会は、チームで開発された優秀な会話ソフトウェアの精度を競うことを目的として […]
【G検定】ルールベース機械翻訳
ルールベース機械翻訳 ルールベース機械翻訳の基本概念 ルールベース機械翻訳は、機械翻訳の手法の中で最も長い歴史を持つアプローチです。この方法は、人間が事前に定義した言語規則と辞書情報を基に翻訳を行います。1970年代後半 […]
【LivePortrait】1枚の画像から自然な人物動画を作成するLivePortraitを実装する
Google colabを使用して簡単に実装することができますので、ぜひ最後までご覧ください。 LivePortraitの概要 静止画の人物像を生き生きとしたアニメーションに変える技術 LivePortraitは、1枚の […]
【G検定】フレーム問題
フレーム問題 フレーム問題とは フレーム問題は、1969年にジョン・マッカーシーとパトリック・ヘイズによって提起された人工知能(AI)研究における根本的な課題です。この問題は、AIシステムが特定の行動を取る際に、関連する […]
【G検定】統計的機械翻訳
統計的機械翻訳 機械翻訳の歴史的背景 機械翻訳は、人工知能の黎明期から現在に至るまで、絶え間ない研究と進化を遂げてきた分野です。1970年代後半には、ルールベース機械翻訳が主流でした。これは、言語の文法規則や単語の対応関 […]
【G検定】中国語の部屋
中国語の部屋 中国語の部屋とは 「中国語の部屋」は、1980年にアメリカの哲学者ジョン・サールが提唱した思考実験です。この実験は、人工知能が本当に「理解」しているかどうかを問う重要な問いを投げかけています。 実験の設定は […]
【G検定】Squeeze-and-Excitation Networks(SENet)
Squeeze-and-Excitation Networks(SENet) SENetの概要と特徴 Squeeze-and-Excitation Networks(SENet)は、2017年に登場した画像認識モデルで、 […]
【G検定】ResNet
ResNet ResNet(Residual Network)は、2015年に登場した画期的な畳み込みニューラルネットワーク(CNN)アーキテクチャです。ResNetは、画像認識タスクにおいて人間の性能を超える精度を達成 […]
【G検定】Neural Architecture Search(NAS)
Neural Architecture Search(NAS) NASの背景 深層学習モデルの設計は、長年にわたり人間の専門家によって行われてきました。2012年にAlexNetが登場して以降、VGGNet、GoogLe […]
【G検定】MobileNet
MobileNet MobileNetは、モバイルデバイスやリソースが制限された環境での使用を念頭に置いて設計された、軽量で効率的な畳み込みニューラルネットワーク(CNN)アーキテクチャです。2017年にGoogleの研 […]
【G検定】MnasNet
MnasNet MnasNetの位置づけ MnasNetはモバイル端末での効率的な動作を目的として設計された画期的なモデルです。ResNetの登場以降、Wide ResNetやDenseNetなどの派生モデルが現れ、さら […]
【G検定】PSPNet
PSPNet セグメンテーションタスクの基礎 画像認識技術の進歩に伴い、単に物体を識別するだけでなく、画像内の各ピクセルがどの対象物に属するかを判別する「セグメンテーション」が重要になってきました。セグメンテーションタス […]
【G検定】OpenPose
OpenPose OpenPoseは、コンピュータビジョンの分野において画期的な姿勢推定技術として知られています。この技術は、画像や動画内の複数の人物の姿勢を同時に高精度で推定することができ、様々な応用分野で注目を集めて […]
【G検定】Mask R-CNN
Mask R-CNN Mask R-CNNは、物体検出とセグメンテーションを同時に行うことができる画期的なモデルです。このモデルは、Faster R-CNNをベースにしており、物体の位置を特定するだけでなく、その物体の領 […]
【G検定】GoogLeNet
GoogLeNet GoogLeNetは、2014年のILSVRC(画像認識の精度を競うコンペティション)で優勝したディープラーニングモデルです。従来のモデルと比べて、より深い層を持ちつつ、独自のInceptionモジュ […]
【G検定】FPN(Feature Pyramid Network)
FPN(Feature Pyramid Network) FPN(Feature Pyramid Network)は、物体検出タスクにおいて高い精度を実現するために提案されたネットワーク構造です。物体検出タスクでは、入力 […]
【G検定】FCN(Fully Convolutional Network)
FCN(Fully Convolutional Network) FCN(Fully Convolutional Network)は、CNNをセマンティックセグメンテーションタスクに利用した手法です。セマンティックセグメ […]
【G検定】Faster R-CNN
Faster R-CNN Faster R-CNNは、物体検出タスクにおいて高い精度と速度を実現した2段階モデルの1つです。物体検出タスクとは、入力画像内の物体のクラスを識別し、その位置を矩形領域(バウンディングボックス […]
【G検定】Fast R-CNN
Fast R-CNN 物体検出タスクとは 物体検出タスクとは、入力画像内の物体のクラスを識別し、その位置を特定するタスクです。物体の位置は通常、物体を囲む矩形領域(バウンディングボックス)で表現され、その左上と右下の座標 […]
【G検定】EfficientNet
EfficientNet EfficientNetは、画像認識タスクにおいて高い精度と効率性を両立させた革新的な畳み込みニューラルネットワーク(CNN)モデルです。2019年にGoogleの研究者らによって発表され、その […]
【G検定】DenseNet
DenseNet DenseNetの基本概念と特徴 DenseNet(Dense Convolutional Network)は、2017年にGao Huang氏らによって提案された畳み込みニューラルネットワーク(CNN […]
【G検定】DeepLab
DeepLab DeepLabは、セマンティックセグメンテーションのための深層学習モデルの一つです。セマンティックセグメンテーションは、画像内の各ピクセルに対して、そのピクセルが属するクラス(例えば、人、車、建物など)を […]
【G検定】AlexNet
AlexNet AlexNetの登場 lexNetは、2012年に画像認識の分野に大きな変化をもたらした深層学習モデルです。トロント大学のAlex Krizhevsky、Ilya Sutskever、Geoffrey H […]
【G検定】ブートストラップサンプリング
ブートストラップサンプリング ブートストラップサンプリングは、統計学や機械学習の分野で広く用いられる重要な技術です。この手法は、限られたデータセットから最大限の情報を引き出し、モデルの性能を向上させるために使用されます。 […]
【G検定】ブースティング
ブースティング ブースティングは、機械学習の分野で広く使用される強力なアンサンブル学習の手法です。この技法は、複数の弱い学習モデル(弱識別器)を組み合わせて、より強力で精度の高いモデル(強識別器)を作り出すことを目的とし […]
【G検定】多クラス分類
多クラス分類 二値分類から多クラス分類へ 機械学習の分類問題において、最も基本的なものは二値分類(バイナリ分類)です。例えば、メールが迷惑メールかどうかを判断する問題がこれに当たります。この場合、ロジスティック回帰という […]
【G検定】重回帰分析
重回帰分析 重回帰分析とは 重回帰分析は、複数の説明変数(独立変数)を使って、目的変数(従属変数)を予測する統計的手法です。これは、単回帰分析を拡張したものと考えることができます。 単回帰分析では、1つの説明変数から目的 […]
【G検定】勾配ブースティング
勾配ブースティング ブースティングの基本概念 勾配ブースティングは、機械学習の分野で非常に強力な予測手法として知られています。この手法を理解するためには、まずブースティングという概念を把握する必要があります。ブースティン […]
【G検定】カーネルトリック
カーネルトリック カーネルトリックとは何か カーネルトリックは、機械学習、特にサポートベクターマシン(SVM)において非常に重要な概念です。この技術は、複雑な非線形の問題を、より単純な線形の問題に変換することを可能にしま […]
【G検定】アンサンブル学習
アンサンブル学習 アンサンブル学習は、機械学習の世界で非常に強力かつ広く使われている手法です。この手法は、複数の学習モデルを組み合わせることで、単一のモデルよりも高い精度と安定性を実現します。 アンサンブル学習の基本概念 […]
【G検定】AdaBoost
AdaBoost AdaBoost(Adaptive Boosting)は、機械学習の分野で広く使われている強力なアルゴリズムです。このアルゴリズムは、複数の弱い学習器を組み合わせて、高性能な予測モデルを作り出すという、 […]
【G検定】LLM(大規模言語モデル)
LLM(大規模言語モデル) 大規模言語モデル(LLM)は、自然言語処理の分野に大きな変化をもたらした技術です。これらのモデルは、膨大な量のテキストデータを学習することで、人間の言語を理解し、生成する能力を獲得しています。 […]
【G検定】ネオコグニトロン
ネオコグニトロン ネオコグニトロンの誕生と構造 ネオコグニトロンは、1980年に福島邦彦博士によって提案された人工神経回路網モデルです。このモデルは、人間の視覚系、特に視覚皮質の階層的な構造にヒントを得て設計されました。 […]
【G検定】LeNet
LeNet LeNetは、画像認識の分野に革命をもたらした畳み込みニューラルネットワーク(CNN)のパイオニア的モデルです。1989年にヤン・ルカンによって提案されたLeNetは、手書き数字認識タスクにおいて高い性能を示 […]
【G検定】ImageNet
ImageNet 概要 ImageNetは、2009年にStanford Vision Labによって公開された大規模な画像データセットです。これは、数百万枚の高解像度画像を含み、それぞれが特定のカテゴリーに分類されてい […]
【G検定】エージェント
エージェント エージェントとは エージェントとは、簡単に言えば「自分の置かれた環境や状況を理解し、それに基づいて最適な行動を選択する存在」のことです。この定義は、人工知能の分野で広く受け入れられている「エージェントアプロ […]
G検定シラバス改訂の概要と変更のポイント
シラバス改訂の概要 一般社団法人日本ディープラーニング協会(JDLA)は、2024年11月実施の「G検定2024 #6」よりG検定(ジェネラリスト検定)のシラバスを改訂すると発表しました。 JDLAによると、今回の改訂で […]
【生成AIニュースメモ】Anthropicが新モデル「Claude 3.5 Sonnet」をリリース(2024/6/21)
Anthropic社は2024年6月21日、人工知能対話モデル「Claude」シリーズの最新版となる「Claude 3.5 Sonnet」の提供を開始しました。Claude 3.5 Sonnetは、現行の「Claude […]
【EasyOCR】🔰実務で使える日本語OCR入門【Python活用】
このシリーズでは、Pythonの様々な活用の方法を紹介しています。 今回は「EasyOCR」を使って、画像からテキストを読み取る方法を紹介します。 実際にOCR技術を使ってみましょう。 Google colabを使用して […]
【LangChain v0.2入門】第5回:エージェントの構築
エージェントとは エージェントとは、特定のタスクを実行するために設計されたソフトウェアプログラムやシステムのことです。特に、LLM(大規模言語モデル)を活用するエージェントは、人間の指示に基づいてテキストを生成したり、情 […]
【生成AIニュースメモ】GPT-4を上回る!? DeepSeekが最先端のオープンソースコード生成AI「DeepSeek-Coder-V2」を公開(2024/6/17)
DeepSeekは独自開発した大規模言語モデル「DeepSeek-Coder-V2」をオープンソースで公開しました。DeepSeek-Coder-V2は、OpenAIのGPT-4と同等の性能を発揮するコード特化型のAIモ […]
【生成AIニュースメモ】AIによる高品質な動画生成が可能に – Runway Gen-3 Alphaを発表2024/6/17)
AIによる動画生成技術で先駆的な存在であるRunwayが、新たな動画生成モデル「Gen-3 Alpha」を発表しました。Gen-3 Alphaは、高精細でコントロール性の高い動画生成を実現する画期的なモデルです。 写真と […]
【LangChain v0.2入門】第4回:RAGの構築
RAG(Retrieval-Augmented Generation)とは RAG(Retrieval-Augmented Generation)は、生成(Generation)と情報取得(Retrieval)を組み合わ […]
【LangChain v0.2入門】第3回:チャットボットの作り方
会話の実装 langchainは、大規模言語モデル(LLM)を使ったアプリケーション開発を支援するPythonライブラリです。会話履歴を記憶し、文脈を踏まえた応答ができるチャットボットを簡単に作ることができます。 導入 […]
【LangChain v0.2入門】第2回:シンプルな言語モデル(LLM)アプリケーションの構築
LLMの基本的な使い方 導入 ここからはGoogle colabで実装していきます。 LangChainをインストールするには、以下のコマンドを実行します。 次に環境変数の準備をします。 Google colabの左端に […]
【LangChain v0.2入門】第1回:LangChainのユースケース
LangChainの概要 LangChainとは LangChainは、ChatGPTをはじめとする大規模言語モデルを効率的に拡張するためのライブラリです。LangChainを使用することで、独自データの読み込み、Goo […]
【生成AIニュースメモ】「Dream Machine」高品質な動画生成を実現(2024/6/13)
Luma Labsが新たに公開した「Dream Machine」は、テキストや画像から高品質でリアルな動画を高速に生成できる画期的なAIモデルです。このモデルは、動画から直接トレーニングされたトランスフォーマーモデルであ […]
【生成AIニュースメモ】Stability AIが最先端の画像生成モデル「Stable Diffusion 3 Medium」をオープンリリース(2024/6/13)
AIによる画像生成の第一人者であるStability AIが、最新かつ最も高度なテキストから画像を生成するオープンモデル「Stable Diffusion 3 Medium」を発表しました。同社は生成AIの民主化に尽力し […]
【生成AIニュースメモ】Google Labsが開発したAI研究アシスタント「NotebookLM」を発表(2024/6/6)
文書の要約生成や質問応答、アイデア生成など多彩な機能を搭載 Google Labsは、ユーザーがアップロードした文書や情報を活用して、迅速かつ重要な洞察を得るために設計された実験的なAIノートブック「NotebookLM […]
【生成AIニュースメモ】デジタル庁、テキスト生成AI利活用のリスク対策ガイドブックを公開(2024/5/29)
デジタル庁が2024年5月29日、「テキスト生成AI利活用におけるリスクへの対策ガイドブック(α版)」を公開しました。このガイドブックでは、テキスト生成AIを行政サービスや職員業務の改善に利用する際のリスクとその軽減策に […]
【生成AIニュースメモ】OpenAIの安全性と安心に向けた重要な取り組み ~OpenAIが安全保障委員会を新設~(2024/5/29)
OpenAIが安全保障委員会を新設 OpenAIは2024年5月28日、安全保障委員会を新設したと発表しました。この委員会は「OpenAIのプロジェクトと運営に関する重要な安全とセキュリティの決定について、取締役会全体に […]
【LLM】Google ColabでPhi-3-mediumを動かす(日本語)
今回の記事では日本語LLMの1つであるPhi-3-mediumの実装を紹介します。Google Colabを使用して簡単に実装できますので、ぜひ最後までご覧ください。 概要 Phi-3の概要 Phi-3モデルはMicro […]
【生成AIニュースメモ】AI戦略会議 第9回(2024/5/22)
今回の会議では、「AI戦略の課題と対応について」をテーマに議論が行われました。会議では以下の資料が提示されています。 資料1-1: AI戦略の課題と対応 ・海外では、OECD、G7、AI安全性サミット、EU、日米、欧州評 […]
【生成AIニュースメモ】カラクリ株式会社、AWS TrainiumでMoEモデルの学習に世界で初めて成(2024/5/21)
カスタマーサポートDXを推進するカラクリ株式会社(以下、カラクリ)が、世界で初めてAWS TrainiumでMoEモデルの学習に成功したことを発表しました。 開発費30万円、トレーニングコスト大幅削減を実現 カラクリは、 […]
【生成AI論文メモ】Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context(2024/5/18)
Googleの最新マルチモーダルモデルGemini 1.5 GoogleのGeminiチームは、Gemini 1.0の後継となる、計算効率の高いマルチモーダルモデル「Gemini 1.5」を発表しました。Gemini 1 […]
【生成AI論文メモ】Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?(2024/5/14)
大規模言語モデル(LLM)は事前学習によって膨大な知識を獲得しています。しかし、指示に従うタスクで教師あり微調整する際、事前学習で得られなかった新しい事実情報に遭遇することがあります。LLMが微調整で新しい事実を学ぶと、 […]
【生成AIニュースメモ】日本ディープラーニング協会(JDLA)がG検定のシラバスを改訂 〜2024年11月実施の「G検定2024 #6」より適用〜(2024/5/14)
日本ディープラーニング協会(JDLA)は、「G検定(ジェネラリスト検定)」のシラバスを2024年11月実施の「G検定2024 #6」より改訂することを発表しました。 改訂内容 改訂内容は以下の通りです。 JDLAは、生成 […]
【生成AIニュースメモ】GPT-4oの概要(2024/5/14)
OpenAIは2024年5月13日(現地時間)、新しい言語モデル「GPT-4o」を発表しました。GPT-4oは、テキスト、音声、画像を同時に処理できるマルチモーダルAIであり、人間とのより自然なインタラクションを可能にし […]
【生成AIニュースメモ】GPT-4o(オムニ)が登場 〜OpenAI 発表まとめ〜(2024/5/14)
OpenAIのイベントで、AI技術の新しい時代の幕開けを予感させる重大発表がありました。最新モデル「GPT-4o」の登場と、ChatGPTの無料ユーザーへの機能解放です。これにより、より多くのユーザーが高度なAIを手軽に […]
【生成AIニュースメモ】LangChain v0.2 プレリリース発表、安定性と使いやすさに注力(2024/5/11)
LangChainフレームワークの次期バージョンとなるv0.2のプレリリースを発表しました。このリリースでは、安定性とセキュリティの向上に重点が置かれています。 コミュニティからのフィードバックを取り入れた進化 Lang […]
【生成AIニュースメモ】Stability AIがDiscordで利用可能なメディア生成ボット「Stable Artisan」をリリース(2024/5/10)
Stability AIは2024年5月9日、Discordで利用可能な新しいメディア生成ボット「Stable Artisan」のリリースを発表しました。このボットにより、ユーザーはDiscord上で高品質の画像や動画を […]
【生成AIニュースメモ】マイクロソフトとリンクトインが2024年版ワークトレンドインデックスを発表 ~AIが職場にもたらす変化と対応策~(2024/5/10)
マイクロソフトとリンクトインは先日、2024年版のワークトレンドインデックス年次レポートを公開しました。このレポートでは、AIが職場にもたらす影響と、組織やリーダー、従業員がどのように対応すべきかについて、31カ国の3万 […]
【生成AIニュースメモ】IBMが大規模言語モデル「Granite」をオープンソース化(2024/5/9)
IBMが、企業向けの大規模言語モデル「Granite」をオープンソースとして公開しました。この発表は、コーディングをできるだけ多くの開発者にとって簡単にすることを目的としています。 モデルの概要 Graniteコードモデ […]
【生成AIニュースメモ】Stability AIが日本語小型言語モデル「Japanese Stable LM 2 1.6B」をリリース(2024/5/9)
16億パラメータで高性能を実現、商用利用も可能に Stability AI Japanは、16億パラメータで学習した日本語の小型言語モデル「Japanese Stable LM 2 1.6B(JSLM2 1.6B)」をリ […]
【生成AIニュースメモ】OpenAIが「Model Spec」を公開 〜望ましいAIモデルの振る舞いを示すドキュメント〜(2024/5/9)
OpenAIは「Model Spec」と呼ばれる新しいドキュメントを公開しました。このドキュメントは、OpenAI APIやChatGPTにおいて、AIモデルがどのように振る舞うべきかを示すものです。 Model Spe […]