@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「Data-centric AI入門」を読んだ

目次は以下。

第1章 Data-centric AI の概要
第2章 画像データ
第3章 テキストデータの収集と構築
第4章 LLM のファインチューニングデータ
第5章 ロボットデータ
第6章 Data-centric AI の実践例

そもそもData-centric ってなんだろうと思って読み始めた。今まではモデルの設計を改善することに重点が置かれてきたが、データの量や品質、信頼性を確保することでAIの性能を向上させる方向性の研究が増えているとのこと。最近と言っても2021年に発表されていたらしいので、すでに数年経っている分野らしい。
「ガベージ イン、ガベージ アウト」がずっと言われていたけどこれがちゃんと研究されているということなのだろうか。

1章では概要が説明されており、データとモデルの関係性、データ品質の重要性、ラベルの一貫性などについての説明がされている。
2章~5章で画像・言語・ロボット領域におけるデータの品質・精度向上をするための取り組みが紹介されている。ラベルづけやデータのクリーニング、定量的および定性的な評価指標による効果測定について、データ拡張手法の紹介など幅広く説明されている。それぞれの紹介については論文などのリンクも貼られているので勉強のしがいがありそうなものだった。
6章ではいくつかの会社の実用例が紹介されていたので少しだけだが具体的に読みすすめることができた。

データ品質を長期にわたって維持、更新をしていく仕組みは今のところ、これといって簡単にできる手法などは出来上がっていないのだと思う。モデルを作る方はあまりできないかもしれないけどデータについては試せるなら是非ともやってみたいと思っている。
ちょうど自分の方向性も考えていたしもう少し勉強してみようと思った。

まとめ

  • データの品質ってやっぱり大事なんだなと思うことができた
  • 理解できたとは言い難いので参考文献も読みながらもっと勉強したい
  • AI/ML 方面も勉強していってみようと。エージェントも興味があるの