পোস্ট Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। সংক্ষেপে Alibaba's Qwen 3.5 Omni নিয়ে আসেপোস্ট Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। সংক্ষেপে Alibaba's Qwen 3.5 Omni নিয়ে আসে

Qwen 3.5 Omni: আলিবাবার AI মডেল এখন শুনতে, দেখতে এবং আপনার কণ্ঠস্বর ক্লোন করতে পারে

2026/03/31 04:07
5 মিনিটে পড়া যাবে
এই বিষয়বস্তু সম্পর্কে মতামত বা উদ্বেগ জানাতে, অনুগ্রহ করে আমাদের সাথে [email protected] ঠিকানায় যোগাযোগ করুন

সংক্ষেপে

  • আলিবাবার Qwen 3.5 Omni সীমান্ত প্রতিযোগিতায় প্রকৃত রিয়েল-টাইম অম্নিমোডাল AI নিয়ে আসছে।
  • নেটিভ অডিও-ভিজ্যুয়াল প্রসেসিং গতি এবং সামঞ্জস্যে স্টিচড মাল্টিমোডাল পাইপলাইনকে হারায়।
  • ভয়েস ক্লোনিং, সিম্যান্টিক ইন্টারাপশন এবং ভাইব কোডিং সম্পূর্ণ ইন্টারঅ্যাক্টিভ AI এজেন্টের দিকে একটি পরিবর্তনের ইঙ্গিত দেয়।

আলিবাবা সবেমাত্র তার সবচেয়ে উচ্চাভিলাষী AI আপগ্রেড প্রকাশ করেছে।

কোম্পানির Qwen টিম রবিবার Qwen 3.5 Omni প্রকাশ করেছে, এটি তার "অম্নিমোডাল" AI-এর একটি নতুন সংস্করণ যা একযোগে টেক্সট, ছবি, অডিও এবং ভিডিও প্রসেস করে এবং 36টি ভাষায় রিয়েল টাইমে সাড়া দেয়, যা এর মডেলকে বর্তমানে উপলব্ধ সর্বশেষ অত্যাধুনিক AI ফাউন্ডেশনাল মডেলগুলির সাথে একই যুদ্ধক্ষেত্রে স্থাপন করে।

"Omni" এখানে শুধুমাত্র একটি মার্কেটিং বাজওয়ার্ড নয়। আপনি যে বেশিরভাগ AI মডেলের সাথে যোগাযোগ করেন তা প্রাথমিকভাবে টেক্সট-ইন, টেক্সট-আউট সিস্টেম। কিছু ছবি পরিচালনা করে, কিছু ভয়েস পরিচালনা করে। Qwen 3.5 Omni থার্ড-পার্টি টুলের মাধ্যমে সবকিছুকে টেক্সটে রূপান্তর করার প্রয়োজন ছাড়াই একসাথে নেটিভভাবে সেগুলি সবই পরিচালনা করে।

নতুন মডেলটি তিনটি আকারে আসে—Plus, Flash এবং Light—সবগুলি একটি ছোট (আজকের মান অনুসারে) 256,000-টোকেন কনটেক্সট উইন্ডো সমর্থন করে। এটি 100 মিলিয়ন ঘন্টারও বেশি অডিও-ভিজ্যুয়াল ডেটাতে প্রশিক্ষিত হয়েছে—এমন একটি স্কেল যা এটিকে বেশিরভাগ প্রতিযোগীদের থেকে ভিন্ন ওজন শ্রেণিতে রাখে।

Qwen 3.5 Omni হল Qwen 3 Omni Flash-এর একটি বিবর্তন, আলিবাবার পূর্ববর্তী অম্নিমোডাল মডেল যা ডিসেম্বর 2025-এ প্রকাশিত হয়েছিল। সেই সংস্করণটি ইতিমধ্যে ভিডিও এবং অডিও একযোগে প্রসেস করার ক্ষমতা দিয়ে প্রভাবিত করেছিল—এটি একাধিক ভিজ্যুয়াল ইনপুট সমন্বিত ইমেজ এডিটিং নির্দেশনাগুলি পরিচালনা করতে পারত যেভাবে প্রতিযোগীরা পারত না—এবং 234 মিলিসেকেন্ডের মতো কম লেটেন্সি সহ ভয়েস রেসপন্স স্ট্রিম করত।

এটি Google-এর NotebookLM-এর বিকল্প চেষ্টা করা প্রথম মডেলও ছিল। এটি কিছু অর্জন করেছিল, কিন্তু গুণমান Google-এর অফারের সমান ছিল না।

Qwen 3.5 Omni এই সবকিছু নেয় এবং একটি দীর্ঘ কনটেক্সট উইন্ডো, উন্নত রিজনিং, অনেক বিস্তৃত ভাষা লাইব্রেরি এবং রিয়েল-টাইম ইন্টারঅ্যাকশন বৈশিষ্ট্যগুলির একটি সেট যোগ করে যা পূর্ববর্তী প্রজন্মের ছিল না।

হেডলাইন আপগ্রেড হল যখন আপনি আসলে এটির সাথে কথা বলেন তখন কী ঘটে। Qwen3.5-Omni এখন সিম্যান্টিক ইন্টারাপশন সমর্থন করে: এটি আপনি বাক্যের মাঝখানে "উহ-হুহ" বলা এবং আসলে কাটতে চাওয়ার মধ্যে পার্থক্য বলতে পারে, তাই এটি প্রতিবার কেউ পটভূমিতে কাশি দিলে চিন্তার মাঝখানে থামবে না, যা কথ্য ইন্টারঅ্যাকশনকে আরও সহজ করে তোলে।

ARIA নামে একটি নতুন কৌশল, যার পূর্ণরূপ Adaptive Rate Interleave Alignment, একটি সূক্ষ্ম কিন্তু ক্রমাগত বিরক্তিও ঠিক করে: AI সিস্টেম যা জোরে পড়ার সময় সংখ্যা বা অস্বাভাবিক শব্দগুলি বিকৃত করে। ARIA আউটপুট স্বাভাবিক এবং নির্ভুল রাখতে গতিশীলভাবে টেক্সট এবং স্পিচ সিঙ্ক করে।

তারপর ভয়েস ক্লোনিং রয়েছে। ব্যবহারকারীরা একটি ভয়েস নমুনা আপলোড করতে পারেন এবং মডেলটি তার প্রতিক্রিয়াগুলিতে সেই ভয়েস গ্রহণ করতে পারে, এমন একটি বৈশিষ্ট্য যা Qwen-কে সরাসরি ElevenLabs এবং অন্যান্য ডেডিকেটেড ভয়েস টুলগুলির সাথে প্রতিযোগিতায় রাখে। যদিও আমরা এই বৈশিষ্ট্যটি অ্যাক্সেস করতে পারিনি, কারণ এটি এমন একটি বৈশিষ্ট্য যা অন্তত এখনকার জন্য শুধুমাত্র API-এর মাধ্যমে উপলব্ধ।

বহুভাষিক ভয়েস স্থিতিশীলতা বেঞ্চমার্কে, Qwen3.5 Omni-Plus 20টি ভাষায় ElevenLabs, GPT-Audio এবং Minimax-কে হারিয়েছে। মডেলটি এখন রিয়েল-টাইম ওয়েব সার্চ সমর্থন করে, যার অর্থ এটি ব্রেকিং নিউজ বা লাইভ মার্কেট ডেটা সম্পর্কে প্রশ্নের উত্তর দিতে পারে এটি ইতিমধ্যে জানে এমন ভান না করে।

টিমটি যাকে তারা "অডিও-ভিজ্যুয়াল ভাইব কোডিং" বলছে তাও হাইলাইট করছে, মডেলটি একটি কোডিং টাস্কের একটি স্ক্রিন রেকর্ডিং বা ভিডিও দেখতে পারে এবং সম্পূর্ণভাবে এটি যা দেখে এবং শোনে তার উপর ভিত্তি করে কার্যকরী কোড লিখতে পারে, কোনও টেক্সট প্রম্পট প্রয়োজন নেই। এটি AI সহায়করা আপনার ওয়ার্কফ্লোর পাশাপাশি না হয়ে এর ভিতরে কীভাবে কাজ করতে পারে তার একটি ছোট পূর্বরূপ।

"অম্নিমোডাল" আসলে অনুশীলনে কী বোঝায় তা বুঝতে, আমরা একটি দ্রুত পরীক্ষা চালিয়েছিলাম: আমরা Qwen3.5-Omni এবং ChatGPT 5.4 উভয়কে "থিংকিং" মোডে একই YouTube Short খাওয়ালাম—Dastan President (Dastan হল Decrypt-এর মূল কোম্পানি) এবং ভাষ্যকার Farokh ব্রেকিং নিউজ নিয়ে আলোচনা করার একটি ক্লিপ। Qwen 3.5 Omni ভিডিওটি নেটিভভাবে প্রসেস করেছে এবং প্রায় এক মিনিটে একটি সম্পূর্ণ বিশ্লেষণ ফিরিয়েছে: কে কথা বলছিল, তারা কী নিয়ে আলোচনা করছিল এবং বিষয় এলাকা সম্পর্কে তার নিজস্ব জ্ঞানের উপর ভিত্তি করে বিষয়টির উপর একটি সারবত্তাপূর্ণ মন্তব্য।

ChatGPT 5.4, যা অম্নিমোডাল নয়, এটি যা পেয়েছিল তা দিয়ে পরিচালনা করতে হয়েছিল। এটি ভিডিও থেকে ফ্রেম বের করেছে, সেগুলি একটি ভিশন মডেলের মাধ্যমে চালিয়েছে, অডিও ট্রান্সক্রাইব করতে Whisper ব্যবহার করেছে এবং এম্বেডেড সাবটাইটেল পড়তে একটি OCR টুল প্রয়োগ করেছে—তিনটি পৃথক প্রক্রিয়া একসাথে সেলাই করা হয়েছে Qwen3.5-Omni একটি একক পাসে যা করে তা আনুমানিক করতে। ফলাফলটি নয় মিনিট সময় নিয়েছিল, এবং এটি আদর্শ পরিস্থিতিতে: একটি ভাল-আলোকিত ভিডিও পরিষ্কার অডিও এবং বার্ন-ইন সাবটাইটেল সহ। বাস্তব-বিশ্বের কন্টেন্ট খুব কমই তিনটিই অফার করে।

একাধিক ইনপুট জুড়ে আমাদের দ্রুত পরীক্ষায়, মডেলটি স্প্যানিশ, পর্তুগিজ এবং ইংরেজিতে প্রম্পটগুলি সমস্যা ছাড়াই পরিচালনা করেছে—কনটেক্সট হারানো ছাড়াই কথোপকথনের মাঝখানে ভাষা পরিবর্তন করে।

স্ট্যান্ডার্ড বেঞ্চমার্কগুলিতে, Qwen 3.5 Omni Plus সাধারণ অডিও বোঝাপড়া, রিজনিং এবং অনুবাদ কাজগুলিতে Gemini 3.1 Pro-কে ছাড়িয়ে গেছে এবং অডিও-ভিজ্যুয়াল কমপ্রিহেনশনে এটির সাথে মিলেছে। স্পিচ রিকগনিশন এখন 113টি ভাষা এবং উপভাষা কভার করে—পূর্ববর্তী প্রজন্মের 19 থেকে বৃদ্ধি পেয়েছে।

এটি ছয় সপ্তাহে আলিবাবার দ্বিতীয় বড় AI প্রকাশ। ফেব্রুয়ারিতে, এটি Qwen 3.5 লঞ্চ করেছিল, একটি টেক্সট-এবং-ভিশন মডেল যা রিজনিং এবং কোডিং বেঞ্চমার্কে ফ্রন্টিয়ার মডেলগুলির সাথে মিলেছে বা হারিয়েছে—এমন একটি ধারার অংশ যার মধ্যে Qwen Deep Research এবং OpenAI এবং Google-এর প্রতিদ্বন্দ্বী টুলগুলির একটি লাইনআপও অন্তর্ভুক্ত রয়েছে। Qwen 3.5 Omni সেই গতিকে সম্পূর্ণ মাল্টিমোডাল অঞ্চলে প্রসারিত করে, এমন একটি সময়ে যখন প্রতিটি প্রধান AI ল্যাব মানব যোগাযোগের সম্পূর্ণ স্পেকট্রাম পরিচালনা করে এমন সিস্টেম তৈরি করতে প্রতিযোগিতা করছে—শুধুমাত্র স্ক্রিনে শব্দ নয়।

মডেলটি এখন Alibaba Cloud-এর API-এর মাধ্যমে উপলব্ধ এবং সরাসরি Qwen Chat-এ বা Hugging Face-এর অনলাইন ডেমোর মাধ্যমে পরীক্ষা করা যেতে পারে।

ডেইলি ডিব্রিফ নিউজলেটার

প্রতিদিন শুরু করুন শীর্ষ সংবাদ গল্প দিয়ে এখনই, সাথে মূল ফিচার, একটি পডকাস্ট, ভিডিও এবং আরও অনেক কিছু।

সূত্র: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

মার্কেটের সুযোগ
Confidential Layer লোগো
Confidential Layer প্রাইস(CLONE)
$0.003344
$0.003344$0.003344
-7.00%
USD
Confidential Layer (CLONE) লাইভ প্রাইস চার্ট

World Cup Combo: Aim for 200x

World Cup Combo: Aim for 200xWorld Cup Combo: Aim for 200x

Combine up to 20 World Cup matches in one order

ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য [email protected] এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

স্যামসাং গ্যালাক্সি গ্লাসেস সম্পর্কে এখন পর্যন্ত আমরা যা জানি

স্যামসাং গ্যালাক্সি গ্লাসেস সম্পর্কে এখন পর্যন্ত আমরা যা জানি

কোম্পানিটি Gentle Monster এবং Warby Parker-এর সাথে এই চশমাগুলো তৈরি করেছে, যে দুটি আইওয়্যার ব্র্যান্ড আপনি সম্ভবত ইতিমধ্যে দোকানে দেখেছেন।
শেয়ার করুন
Techcabal2026/06/19 19:09
Netflix (NFLX) স্টক Lionsgate গুজবে ৪% পড়ে গেল — তারপর Netflix বলল না

Netflix (NFLX) স্টক Lionsgate গুজবে ৪% পড়ে গেল — তারপর Netflix বলল না

TLDR Netflix প্রায় $77-এ বন্ধ হয়েছে, বছরের শুরু থেকে প্রায় ১৬% কমেছে এবং এর ৫০-, ১০০- এবং ২০০-দিনের মুভিং এভারেজের নিচে রয়েছে। একটি Semafor রিপোর্টে দাবি করা হয়েছে যে Netflix একটি
শেয়ার করুন
Coincentral2026/06/19 17:47
ডেলের শেয়ার ২৫০% বৃদ্ধি পেয়েছে কারণ AI সার্ভার বিক্রয় ৭৫৭% বিস্ফোরিত হয়েছে — ওয়াল স্ট্রিট আরও সুযোগ দেখছে

ডেলের শেয়ার ২৫০% বৃদ্ধি পেয়েছে কারণ AI সার্ভার বিক্রয় ৭৫৭% বিস্ফোরিত হয়েছে — ওয়াল স্ট্রিট আরও সুযোগ দেখছে

ডেলের AI-অপ্টিমাইজড সার্ভার রেভিনিউ Q1-এ $১৬.১ বিলিয়নে পৌঁছেছে, বছরের তুলনায় ৭৫৭% বৃদ্ধি। মোট Q1 রেভিনিউ রেকর্ড $৪৩.৮৪ বিলিয়নে এসেছে, বছরের তুলনায় ৮৭.৫% বৃদ্ধি-
শেয়ার করুন
Coincentral2026/06/19 18:07

Score Your Share of 50K USDT

Score Your Share of 50K USDTScore Your Share of 50K USDT

Complete DEX+ tasks to unlock the Champion Wheel