Strategi AI MassMutual: kontrak 12 bulan, peningkatan produktivitas 30%, tanpa lock-in


Tim AI perusahaan menghadapi dilema: Model terbaik saat ini mungkin bukan model terbaik di tahun depan. Jawaban MassMutual adalah berhenti membuat pertaruhan jangka panjang — dan membangun infrastruktur yang dapat bertukar model seiring pergeseran pasar. “Dunia AI saat ini sangat dinamis,” Sears Merritt, MassMutual CIO, menjelaskan dalam podcast VB Beyond the Pilot yang baru. “Kami ingin memastikan bahwa kami berada pada posisi untuk memanfaatkan gelombang dinamisme tersebut.” Strategi ini tampaknya membuahkan hasil yang besar. MassMutual telah mengukur peningkatan produktivitas pengembang sekitar 30%, sementara alur kerja pusat kontak yang didukung AI telah mengurangi waktu penyelesaian dari 10 menit menjadi satu menit dan memangkas biaya dari dolar menjadi sen. Namun pelajaran yang lebih luas bagi para pemimpin TI mungkin bukan tentang hasil, melainkan tentang bagaimana perusahaan secara serius membangun infrastruktur AI-nya dan menjadikan pengguna sebagai pusatnya. Mempertahankan opsionalitas untuk kemungkinan masa depanMassMutual bekerja dengan vendor terdepan, tetapi menjaga hubungan tersebut tetap berjalan. “Hubungan tersebut dibatasi sehingga kami mempertahankan opsionalitas terhadap alat-alat terbaik seiring dengan semakin matangnya dunia ini, dan pada titik tertentu, menjadi stabil dan stabil,” kata Merritt. Filosofi tersebut meluas ke model sumber terbuka. Merritt mengatakan timnya “100%” melihat alat sumber terbuka, dan melihat teknologi memainkan peran besar dalam cara MassMutual (dan perusahaan serupa) menggunakan AI. “Kita tentu memerlukan model terdepan dan kemampuan terdepan untuk melakukan apa yang saat ini tidak mungkin dilakukan, dan di masa depan akan menjadi mungkin,” katanya. Mengukur hasil sejak awal. Upaya AI MassMutual terbagi dalam dua kategori besar. Yang pertama berfokus pada pemberdayaan: Memberikan alat peningkat produktivitas seperti Copilot dan asisten virtual ke tangan seluruh karyawan. Yang kedua melibatkan apa yang digambarkan Merritt sebagai inisiatif “perdalam dan fokus”, di mana tim menargetkan alur kerja atau proses bisnis tertentu yang akan berdampak kuat pada penasihat, pemegang kebijakan, atau karyawan. Daripada berfokus pada metrik adopsi, proyek-proyek ini dimulai dengan kriteria keberhasilan yang telah ditentukan sebelumnya. “Semua yang kami lakukan diukur,” kata Merritt. “Selalu ada metrik keberhasilan yang kami tetapkan di awal untuk menentukan apakah kami akan meningkatkan beberapa hal ini atau tidak.” Perusahaan juga dengan sengaja mendorong eksperimen, memberikan karyawan akses ke berbagai model terbaik di kelasnya, “alur kerja konsumtif token” dan kemampuan lain yang memungkinkan sehingga mereka dapat mempertimbangkan manfaat dibandingkan dengan model bahasa besar (LLM) yang “lebih sederhana dan berbiaya lebih rendah”. Pada saat yang sama, MassMutual mengumpulkan analisis yang semakin mendetail seputar pola penggunaan, alur kerja pengembang, kinerja model, dan biaya. Sasarannya adalah mengurangi pengeluaran sekaligus membangun kecerdasan operasional yang pada akhirnya mengarahkan beban kerja ke model yang tepat berdasarkan biaya, kualitas respons, dan pengalaman pengguna. Wawasan tersebut pada akhirnya akan mendorong keputusan pengoptimalan seputar perutean model, pemilihan cepat, waktu respons, dan desain infrastruktur. “Kami mendapatkan akses ke analitik yang memungkinkan kami, dengan cara yang sangat terperinci, melihat pola penggunaan, alur kerja pengembang, dan mulai memahami siapa yang menggunakan apa, kapan, dan untuk jenis tugas apa,” kata Merritt. Mengapa MassMutual terkadang memilih model yang lebih mahal Aspek menarik lainnya dari pendekatan MassMutual adalah cara ia mengevaluasi kualitas AI. Daripada berfokus secara eksklusif pada tolok ukur atau biaya token, perusahaan menggunakan apa yang disebut Merritt sebagai kerangka kerja “skor kepercayaan”. Proses ini menggabungkan umpan balik pengguna dengan metrik operasional untuk memahami bagaimana karyawan memandang respons yang dihasilkan AI dan apakah respons tersebut benar-benar meningkatkan hasil. Pembangunan kembali pusat kontak menguji kerangka tersebut. Selama pengembangan, karyawan diberi akses ke dua LLM berbeda. Salah satunya menghasilkan tanggapan hampir secara real-time tetapi kualitasnya lebih buruk. Opsi lain yang lebih mahal memerlukan beberapa detik tambahan untuk merespons, namun secara konsisten memberikan jawaban dengan kualitas lebih tinggi. Kebijaksanaan konvensional dan kecepatan bisnis mungkin menunjukkan bahwa pengguna lebih memilih opsi pertama; tetapi mereka kebanyakan memilih kualitas. Tim Merritt bertanya kepada pengguna tentang kualitas respons, model pilihan mereka, dan pendapat mereka secara keseluruhan tentang pengalaman tersebut. Sering kali, pengguna berkata: “Kami menginginkan yang lebih mahal. Kami bersedia menunggu, namun perbedaan kualitasnya sangat tinggi sehingga dua detik tambahan tersebut benar-benar sepadan bagi kami.” Umpan balik tersebut pada akhirnya menentukan model mana yang diterapkan MassMutual. “Kami memperhitungkan pengalaman tersebut dalam pengambilan keputusan, dan hal ini membuat kami mengatakan, secara relatif, biaya yang dikeluarkan tidaklah penting, jadi kami akan menggunakan model yang lebih kompleks,” kata Merritt. Dengarkan podcast selengkapnya untuk mengetahui lebih lanjut tentang: Mengapa Mythos “sepenuhnya mengubah” lanskap keamanan siber — bukan jenis ancamannya, namun tingkat kemunculan ancaman tersebut; Bagaimana tim insinyur AI memodernisasi mainframe MassMutual dalam 7 hari (sebuah proses yang sebelumnya memakan waktu 3 bulan); Mengapa MassMutual secara khusus menghindari tokenmaxxing untuk mengendalikan penggunaan dan pengeluaran AI dan telah bertindak “tidak terbatas,” untuk melindungi dari ledakan biaya. Bagaimana “jenis lingkungan multi-harness” akan mendukung AI agen. Anda juga dapat mendengarkan dan berlangganan Beyond the Pilot di Spotify, Apple, atau di mana pun Anda mendapatkan podcast.


Diterbitkan : 2026-06-10 17:31:00

sumber : venturebeat.com