画像や映像等のメディアを入力とするAI技術の開発 | 現場受け入れ型インターンシップ

業務内容

業務紹介

メディア(画像/映像/言語/音声等)を対象とするAIに関わる諸技術の開発に取り組むチームに参加していただきます。

docomoビジネス（NTTドコモグループの法人事業）では、画像・映像・言語・音声等メディアを入力とする様々なサービス・ソリューションを提供しています。私たちのチームでは、これらのメディアを入力とするAIに関連する技術（メディアAI）について、現存するサービスを技術で支えるためのニーズベースの技術検証と、まだ見ぬ新サービス実現を見据え先進技術を駆使したシーズベースの研究開発とに並行して取り組んでいます。対象とする技術は、画像や言語等メディアを対象とするAI（生成AIを含む）に加え、エッジ環境へのAIのデプロイ等も包含しており、インターンでのテーマは我々の注力領域の中から参加いただく方の興味関心も考慮して決定する予定です。本インターンポストへの参加を通じて、チームの雰囲気やドコモグループでの技術開発の面白さに触れていただければと考えています。

・最近の対外発表例
加藤ら「最大トークン数を考慮した大規模言語モデルの文法制約つき文章生成手法」2025年度人工知能学会全国大会 https://confit.atlas.jp/guide/event/jsai2025/subject/3G6-GS-6-01/advanced
萱谷ら「深度推定と画像修復による障害物環境下での物体検出」2025年度人工知能学会全国大会 https://confit.atlas.jp/guide/event/jsai2025/subject/2Win5-58/advanced
田良島ら「スポーツボール検出・追跡ベースラインの改善」2025年度人工知能学会全国大会 https://confit.atlas.jp/guide/event/jsai2025/subject/3Win5-103/advanced
加藤「Dynamic NeRFの課題とその軽量化手法」映像情報メディア学会誌
https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202502238707040288

・参加いただくチームについて、NTT技術ジャーナル https://journal.ntt.co.jp/wp-content/uploads/2024/01/nttjnl1201_20240201.pdf で紹介しています（2024年2月時点）
・弊社のエンジニアブログ(https://engineers.ntt.com/archive/category/%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2AI)でチーム取組のいくつかを紹介しています

業務紹介動画

求めるもの

必須スキル

・Linux(特にUbuntu)の経験
・画像/映像/言語/音声いずれか一つ以上のメディアの解析経験
・Python、深層学習ライブラリの経験
・英語ドキュメントからの技術調査経験

推奨スキル

【求める人材像の例】
・メディアAIに関する研究を行っており、就職後も関連した研究開発業務に取り組みたい方
・メディアAI技術開発に基づく事業貢献の実際を体験したい方
・互いに協力/サポートし合ってチームの目標達成に貢献できる方
・何事にも前向きに取り組める方

部署情報

募集組織名

NTTコミュニケーションズイノベーションセンターテクノロジー部門プラットフォームG メディアAI PJ

勤務地

〒100-8019 東京都千代田区大手町2-3-1 大手町プレイスウエストタワー

募集要項（開催日時等）はこちら

【C7】画像や映像等のメディアを入力とするAI技術の開発