Beli Kripto Pasar Spot FuturesGOLD Tabungan Pusat Acara

Lainnya

Tinjauan di balik layar tentang membangun pipeline penyortiran atribut berbasis AI untuk jutaan SKU.Tinjauan di balik layar tentang membangun pipeline penyortiran atribut berbasis AI untuk jutaan SKU.

Bagaimana Saya Menggunakan AI untuk Memperbaiki Nilai Atribut yang Tidak Konsisten dalam Skala Besar di E-commerce

Penulis: Hackernoon

Sumber: Hackernoon

2025/12/25 12:53

durasi baca 7 menit

AI$0.01963-4.05%

LOOK$0.00402-0.74%

Untuk memberikan masukan atau menyampaikan kekhawatiran terkait konten ini, silakan hubungi kami di [email protected]

Ketika orang membicarakan tentang penskalaan e-commerce, mereka fokus pada tantangan rekayasa besar: pencarian terdistribusi, inventaris real-time, mesin rekomendasi, dan optimisasi checkout. Namun di balik semua itu terdapat masalah yang lebih tenang dan persisten yang hampir setiap retailer hadapi: nilai atribut.

Atribut adalah tulang punggung penemuan produk. Mereka menggerakkan filter, perbandingan, peringkat pencarian, dan logika rekomendasi. Namun dalam katalog nyata, nilai atribut jarang bersih. Mereka tidak konsisten, terduplikasi, salah format, atau ambigu secara semantik.

Ambil contoh yang sederhana seperti Ukuran. Anda mungkin melihat:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

Atau Warna:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Secara individu, inkonsistensi ini terlihat tidak berbahaya. Namun kalikan mereka di lebih dari 3 juta SKU, masing-masing dengan puluhan atribut, dan masalahnya menjadi sistemik. Filter berperilaku tidak terduga, mesin pencari kehilangan relevansi, merchandiser tenggelam dalam pembersihan manual, dan penemuan produk menjadi lebih lambat dan lebih membuat frustrasi bagi pelanggan.

Ini adalah tantangan yang saya hadapi sebagai software engineer full-stack di Zoro, masalah yang mudah diabaikan tetapi memengaruhi setiap halaman produk.

Pendekatan Saya: AI Hibrid Bertemu Determinisme

Saya tidak menginginkan AI kotak hitam misterius yang hanya menyortir sesuatu. Sistem seperti itu sulit dipercaya, di-debug, atau diskalakan. Sebaliknya, saya bertujuan untuk pipeline yang:

dapat dijelaskan
dapat diprediksi
dapat diskalakan
dapat dikontrol oleh manusia

Hasilnya adalah pipeline AI hibrid yang menggabungkan penalaran kontekstual dari LLM dengan aturan yang jelas dan kontrol merchandiser. Ini bertindak cerdas saat dibutuhkan, tetapi selalu tetap dapat diprediksi. Ini adalah AI dengan pagar pembatas, bukan AI yang tidak terkendali.

Background Jobs: Dibangun untuk Throughput

Semua pemrosesan atribut terjadi dalam background jobs offline, bukan secara real-time. Ini bukan kompromi; ini adalah pilihan arsitektur strategis.

Pipeline real-time terdengar menarik, tetapi pada skala e-commerce, mereka memperkenalkan:

latensi yang tidak dapat diprediksi
dependensi yang rapuh
lonjakan komputasi yang mahal
kerapuhan operasional

Offline jobs, di sisi lain, memberi kami:

Throughput tinggi: batch besar diproses tanpa memengaruhi sistem live
Ketahanan: kegagalan tidak pernah memengaruhi lalu lintas pelanggan
Kontrol biaya: komputasi dapat dijadwalkan selama waktu lalu lintas rendah
Isolasi: latensi LLM tidak pernah memengaruhi halaman produk
Konsistensi: pembaruan bersifat atomik dan dapat diprediksi

Menjaga sistem yang menghadap pelanggan terpisah dari pipeline pemrosesan data sangat penting saat bekerja dengan jutaan SKU.

Pembersihan & Normalisasi

Sebelum menggunakan AI pada data, saya menjalankan langkah preprocessing yang jelas untuk menghilangkan noise dan kebingungan. Langkah ini mungkin terdengar sederhana, tetapi sangat meningkatkan penalaran LLM.

Pipeline pembersihan termasuk:

memangkas whitespace
menghapus nilai kosong
mendeduplikasi nilai
meratakan breadcrumb kategori menjadi string kontekstual

Ini memastikan LLM menerima input yang bersih dan jelas, yang merupakan kunci untuk hasil yang konsisten. Garbage in, garbage out. Pada skala ini, bahkan kesalahan kecil dapat menyebabkan masalah yang lebih besar nantinya.

LLM Service dengan Konteks

LLM tidak hanya menyortir nilai secara alfabetis. Ini menalar tentang mereka.

Layanan menerima:

nilai atribut yang dibersihkan
breadcrumb kategori
metadata atribut

Dengan konteks ini, model dapat memahami:

Bahwa "Voltage" di Power Tools bersifat numerik
bahwa "Size" di Clothing mengikuti perkembangan yang diketahui
bahwa "Colour" di Paints mungkin mengikuti standar RAL
bahwa "Material" di Hardware memiliki hubungan semantik

Model mengembalikan:

nilai yang diurutkan
nama atribut yang disempurnakan
keputusan: pengurutan deterministik atau kontekstual

Ini memungkinkan pipeline menangani berbagai jenis atribut tanpa hardcoding aturan untuk setiap kategori.

Fallback Deterministik

Tidak setiap atribut memerlukan AI.

Faktanya, banyak atribut lebih baik ditangani oleh logika deterministik.

Rentang numerik, nilai berbasis unit, dan set sederhana sering mendapat manfaat dari:

pemrosesan lebih cepat
pengurutan yang dapat diprediksi
biaya lebih rendah
nol ambiguitas

Pipeline secara otomatis mendeteksi kasus-kasus ini dan menggunakan logika deterministik untuk mereka. Ini menjaga sistem tetap efisien dan menghindari panggilan LLM yang tidak perlu.

Tagging Manual vs LLM

Merchandiser masih memerlukan kontrol, terutama untuk atribut yang sensitif terhadap bisnis.

Jadi setiap kategori dapat ditandai sebagai:

LLM_SORT — biarkan model memutuskan
MANUAL_SORT — merchandiser menentukan urutan

Sistem dual-tag ini memungkinkan orang membuat keputusan akhir sementara AI melakukan sebagian besar pekerjaan. Ini juga membangun kepercayaan, karena merchandiser dapat menimpa model saat diperlukan tanpa merusak pipeline.

Persistence & Control

Semua hasil disimpan langsung dalam database Product MongoDB, menjaga arsitektur tetap sederhana dan terpusat.

MongoDB menjadi penyimpanan operasional tunggal untuk:

nilai atribut yang diurutkan
nama atribut yang disempurnakan
tag sort tingkat kategori
field sortOrder tingkat produk

Ini memudahkan untuk meninjau perubahan, menimpa nilai, memproses ulang kategori, dan menyinkronkan dengan sistem lain.

Integrasi Pencarian

Setelah diurutkan, nilai mengalir ke:

Elasticsearch untuk pencarian berbasis kata kunci
Vespa untuk pencarian semantik dan berbasis vektor

Ini memastikan bahwa:

filter muncul dalam urutan logis
Halaman produk menampilkan atribut yang konsisten
mesin pencari memberi peringkat produk lebih akurat
Pelanggan dapat menelusuri kategori lebih mudah

Pencarian adalah tempat di mana penyortiran atribut paling terlihat, dan di mana konsistensi paling penting.

Ikhtisar Arsitektur

Untuk membuat ini berfungsi di jutaan SKU, saya merancang pipeline modular yang dibangun di sekitar background jobs, penalaran AI, dan integrasi pencarian. Diagram arsitektur di bawah ini menangkap alur penuh:

Data produk masuk dari Product Information System
Attribute Extraction Job menarik nilai atribut dan konteks kategori
Ini diteruskan ke AI Sorting Service
Dokumen produk yang diperbarui ditulis ke Product MongoDB
Outbound Sync Job memperbarui Product Information System dengan urutan sortir
Elasticsearch dan Vespa Sync Jobs mendorong data yang diurutkan ke sistem pencarian masing-masing
API Services menghubungkan Elasticsearch dan Vespa ke Client Application

Alur ini memastikan bahwa setiap nilai atribut, baik diurutkan oleh AI atau diatur secara manual, tercermin dalam pencarian, merchandising, dan pengalaman pelanggan.

Solusi dalam Aksi

Berikut cara nilai yang berantakan ditransformasi:

| Attribute | Raw Values | Ordered Output | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Contoh-contoh ini menunjukkan bagaimana pipeline menggabungkan penalaran kontekstual dengan aturan yang jelas untuk menciptakan urutan yang bersih dan mudah dipahami.

Mengapa Offline Jobs Daripada Pemrosesan Real-Time?

Pemrosesan real-time akan memperkenalkan:

latensi yang tidak dapat diprediksi
Biaya komputasi lebih tinggi
dependensi yang rapuh
kompleksitas operasional

Offline jobs memberi kami:

efisiensi batch
panggilan LLM asinkron
logika retry dan antrian error
jendela peninjauan manusia
pengeluaran komputasi yang dapat diprediksi

Trade-off-nya adalah penundaan kecil antara ingestion data dan tampilan, tetapi manfaatnya adalah konsistensi dalam skala, yang pelanggan hargai jauh lebih banyak.

Dampak

Hasilnya signifikan:

Pengurutan atribut yang konsisten di 3M+ SKU
Penyortiran numerik yang dapat diprediksi melalui fallback deterministik
Kontrol merchandiser melalui tagging manual
Halaman produk yang lebih bersih dan filter yang lebih intuitif
Relevansi pencarian yang ditingkatkan
Kepercayaan pelanggan dan konversi yang lebih tinggi

Ini bukan hanya kemenangan teknis; ini juga kemenangan untuk pengalaman pengguna dan pendapatan.

Pelajaran yang Dipetik

Pipeline hibrid mengungguli AI murni dalam skala. Pagar pembatas penting.
Konteks secara dramatis meningkatkan akurasi LLM
Offline jobs sangat penting untuk throughput dan ketahanan
Mekanisme override manusia membangun kepercayaan dan adopsi
Input yang bersih adalah fondasi dari output AI yang andal

Pemikiran Akhir

Menyortir nilai atribut terdengar sederhana, tetapi menjadi tantangan nyata ketika Anda harus melakukannya untuk jutaan produk.

Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol merchandiser, saya mengubah masalah yang kompleks dan tersembunyi menjadi sistem yang bersih dan dapat diskalakan.

Ini adalah pengingat bahwa beberapa kemenangan terbesar datang dari memecahkan masalah yang membosankan, yang mudah terlewatkan tetapi muncul di setiap halaman produk.

\n \n \n

Peluang Pasar

Harga null(null)

----

USD

Grafik Harga Live null (null)

Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.