Неточности пикселя камеры. - Цифровое Кемерово

Неточности пикселя камеры. ⇐ IOS

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 01 мар 2025, 19:46

Я использую фронтальную камеру TrueDepth в сочетании с видением, чтобы распознать точки на изображении и запустить некоторые измерения. Я понимаю, что координаты зрения нормализованы, поэтому я преобразую нормализованные точки зрения в CGpoints, соответствующие представлению, а затем собираюсь соответствовать тем, что они с DefyData в DataOutputsynchronizer, чтобы получить значение Z. Затем, используя внутреннюю камеру, я пытаюсь получить расстояние между 2 точками в трехмерном пространстве. Я думаю здесь, что эти Cgpoints ничем не отличались, чем если бы я постучал бы на экране. Примерно в 1 футе от камеры), но она сильно меняется и все еще не точнее.

Код: Выделить всё

there are 2 points found
recognized points
[(499.08930909633636, 634.0807711283367), (543.7462849617004, 1061.8824380238852)]
DEPTH POINT 1 =  3.6312041
DEPTH POINT 2 =  0.2998223

there are 2 points found
recognized points
[(498.33644700050354, 681.3769372304281), (602.3667773008347, 1130.4955183664956)]
DEPTH POINT 1 =  3.6276162
DEPTH POINT 2 =  0.560331

Вот некоторые из соответствующих кодов.
dataOutputsynchronizer

Код: Выделить всё

func dataOutputSynchronizer(_ synchronizer: AVCaptureDataOutputSynchronizer,
didOutput synchronizedDataCollection: AVCaptureSynchronizedDataCollection) {

var handPoints: [CGPoint] = []

// Read all outputs
guard renderingEnabled,
let syncedDepthData: AVCaptureSynchronizedDepthData =
synchronizedDataCollection.synchronizedData(for: depthDataOutput) as? AVCaptureSynchronizedDepthData,
let syncedVideoData: AVCaptureSynchronizedSampleBufferData =
synchronizedDataCollection.synchronizedData(for: videoDataOutput) as? AVCaptureSynchronizedSampleBufferData else {
// only work on synced pairs
return
}

if syncedDepthData.depthDataWasDropped || syncedVideoData.sampleBufferWasDropped {
return
}

let depthPixelBuffer = syncedDepthData.depthData.depthDataMap
guard let videoPixelBuffer = CMSampleBufferGetImageBuffer(syncedVideoData.sampleBuffer) else {
return
}

// Get the cameraIntrinsics
guard let  cameraIntrinsics = syncedDepthData.depthData.cameraCalibrationData?.intrinsicMatrix else {
return
}

let image = CIImage(cvPixelBuffer: videoPixelBuffer)

let handler = VNImageRequestHandler(
cmSampleBuffer: syncedVideoData.sampleBuffer,
orientation: .up,
options: [:]
)

do {
try handler.perform([handPoseRequest])
guard
let results = handPoseRequest.results?.prefix(2),
!results.isEmpty
else {
return
}

var recognizedPoints: [VNRecognizedPoint] = []

try results.forEach { observation in
let fingers = try observation.recognizedPoints(.all)

if let middleTipPoint = fingers[.middleDIP] {
recognizedPoints.append(middleTipPoint)
}

if let wristPoint = fingers[.wrist] {
recognizedPoints.append(wristPoint)
}
}

// Store the Points in handPoints if they are confident points
handPoints = recognizedPoints.filter {
$0.confidence >  0.90
}
.map {
// Adjust the Y
CGPoint(x: $0.location.x, y: 1 - $0.location.y)
}

// Process the Points Found
DispatchQueue.main.sync {
self.processPoints(handPoints,depthPixelBuffer,videoPixelBuffer,cameraIntrinsics)
}
} catch {
// Be more graceful here
}
}

точки процесса
func processPoints(_ handPoints: [CGPoint],_ depthPixelBuffer: CVImageBuffer,_ videoPixelBuffer: CVImageBuffer,_ cameraIntrinsics: simd_float3x3) {

// This converts the normalized point to screen points
// cameraView.previewLayer is a AVCaptureVideoPreviewLayer inside a UIView
let convertedPoints = handPoints.map {
cameraView.previewLayer.layerPointConverted(fromCaptureDevicePoint: $0)
}

// We need 2 hand points to get the distance
if handPoints.count == 2 {
print("there are 2 points found");
print("recognized points")
print(convertedPoints)

let handVisionPoint1 = convertedPoints[0]

let handVisionPoint2 = convertedPoints[1]

let scaleFactor = CGFloat(CVPixelBufferGetWidth(depthPixelBuffer)) / CGFloat(CVPixelBufferGetWidth(videoPixelBuffer))

CVPixelBufferLockBaseAddress(depthPixelBuffer, .readOnly)
let floatBuffer = unsafeBitCast(CVPixelBufferGetBaseAddress(depthPixelBuffer), to: UnsafeMutablePointer.self)

let width = CVPixelBufferGetWidth(depthPixelBuffer)
let height = CVPixelBufferGetHeight(depthPixelBuffer)

let handVisionPixelX = Int((handVisionPoint1.x * scaleFactor).rounded())
let handVisionPixelY = Int((handVisionPoint1.y * scaleFactor).rounded())

let handVisionPixe2X = Int((handVisionPoint2.x * scaleFactor).rounded())
let handVisionPixe2Y = Int((handVisionPoint2.y * scaleFactor).rounded())

CVPixelBufferLockBaseAddress(depthPixelBuffer, .readOnly)

let rowDataPoint1 = CVPixelBufferGetBaseAddress(depthPixelBuffer)! + handVisionPixelY * CVPixelBufferGetBytesPerRow(depthPixelBuffer)
let handVisionPoint1Depth = rowDataPoint1.assumingMemoryBound(to: Float32.self)[handVisionPixelX]

print("DEPTH POINT 1 = ", handVisionPoint1Depth)

let rowDataPoint2 = CVPixelBufferGetBaseAddress(depthPixelBuffer)! + handVisionPixe2Y * CVPixelBufferGetBytesPerRow(depthPixelBuffer)
let handVisionPoint2Depth = rowDataPoint2.assumingMemoryBound(to: Float32.self)[handVisionPixe2X]

print("DEPTH POINT 2 = ", handVisionPoint2Depth)
//Int((width - touchPoint.x) * (height - touchPoint.y))
}
< /code>
На мой взгляд, сейчас я думаю, что моя логика для поиска правильного пикселя в карте глубины неверна. Если это не так, то мне интересно, не синхронизируется ли поток данных. Но, честно говоря, я просто немного потерян в данный момент. Спасибо за помощь!

Подробнее здесь: https://stackoverflow.com/questions/777 ... accuracies

1740847613

Anonymous

 Я использую фронтальную камеру TrueDepth в сочетании с видением, чтобы распознать точки на изображении и запустить некоторые измерения. Я понимаю, что координаты зрения нормализованы, поэтому я преобразую нормализованные точки зрения в CGpoints, соответствующие представлению, а затем собираюсь соответствовать тем, что они с DefyData в DataOutputsynchronizer, чтобы получить значение Z. Затем, используя внутреннюю камеру, я пытаюсь получить расстояние между 2 точками в трехмерном пространстве. Я думаю здесь, что эти Cgpoints ничем не отличались, чем если бы я постучал бы на экране. Примерно в 1 футе от камеры), но она сильно меняется и все еще не точнее.[code]there are 2 points found
recognized points
[(499.08930909633636, 634.0807711283367), (543.7462849617004, 1061.8824380238852)]
DEPTH POINT 1 =  3.6312041
DEPTH POINT 2 =  0.2998223

there are 2 points found
recognized points
[(498.33644700050354, 681.3769372304281), (602.3667773008347, 1130.4955183664956)]
DEPTH POINT 1 =  3.6276162
DEPTH POINT 2 =  0.560331
[/code]
Вот некоторые из соответствующих кодов.  
[b] dataOutputsynchronizer [/b] 
[code]func dataOutputSynchronizer(_ synchronizer: AVCaptureDataOutputSynchronizer,
didOutput synchronizedDataCollection: AVCaptureSynchronizedDataCollection) {

var handPoints: [CGPoint] = []

// Read all outputs
guard renderingEnabled,
let syncedDepthData: AVCaptureSynchronizedDepthData =
synchronizedDataCollection.synchronizedData(for: depthDataOutput) as? AVCaptureSynchronizedDepthData,
let syncedVideoData: AVCaptureSynchronizedSampleBufferData =
synchronizedDataCollection.synchronizedData(for: videoDataOutput) as? AVCaptureSynchronizedSampleBufferData else {
// only work on synced pairs
return
}

if syncedDepthData.depthDataWasDropped || syncedVideoData.sampleBufferWasDropped {
return
}

let depthPixelBuffer = syncedDepthData.depthData.depthDataMap
guard let videoPixelBuffer = CMSampleBufferGetImageBuffer(syncedVideoData.sampleBuffer) else {
return
}

// Get the cameraIntrinsics
guard let  cameraIntrinsics = syncedDepthData.depthData.cameraCalibrationData?.intrinsicMatrix else {
return
}

let image = CIImage(cvPixelBuffer: videoPixelBuffer)

let handler = VNImageRequestHandler(
cmSampleBuffer: syncedVideoData.sampleBuffer,
orientation: .up,
options: [:]
)

do {
try handler.perform([handPoseRequest])
guard
let results = handPoseRequest.results?.prefix(2),
!results.isEmpty
else {
return
}

var recognizedPoints: [VNRecognizedPoint] = []

try results.forEach { observation in
let fingers = try observation.recognizedPoints(.all)

if let middleTipPoint = fingers[.middleDIP] {
recognizedPoints.append(middleTipPoint)
}

if let wristPoint = fingers[.wrist] {
recognizedPoints.append(wristPoint)
}
}

// Store the Points in handPoints if they are confident points
handPoints = recognizedPoints.filter {
$0.confidence >  0.90
}
.map {
// Adjust the Y
CGPoint(x: $0.location.x, y: 1 - $0.location.y)
}

// Process the Points Found
DispatchQueue.main.sync {
self.processPoints(handPoints,depthPixelBuffer,videoPixelBuffer,cameraIntrinsics)
}
} catch {
// Be more graceful here
}
}
[/code]
[b] точки процесса [/b] 
func processPoints(_ handPoints: [CGPoint],_ depthPixelBuffer: CVImageBuffer,_ videoPixelBuffer: CVImageBuffer,_ cameraIntrinsics: simd_float3x3) {

// This converts the normalized point to screen points
// cameraView.previewLayer is a AVCaptureVideoPreviewLayer inside a UIView
let convertedPoints = handPoints.map {
cameraView.previewLayer.layerPointConverted(fromCaptureDevicePoint: $0)
}

// We need 2 hand points to get the distance
if handPoints.count == 2 {
print("there are 2 points found");
print("recognized points")
print(convertedPoints)

let handVisionPoint1 = convertedPoints[0]

let handVisionPoint2 = convertedPoints[1]

let scaleFactor = CGFloat(CVPixelBufferGetWidth(depthPixelBuffer)) / CGFloat(CVPixelBufferGetWidth(videoPixelBuffer))

CVPixelBufferLockBaseAddress(depthPixelBuffer, .readOnly)
let floatBuffer = unsafeBitCast(CVPixelBufferGetBaseAddress(depthPixelBuffer), to: UnsafeMutablePointer.self)

let width = CVPixelBufferGetWidth(depthPixelBuffer)
let height = CVPixelBufferGetHeight(depthPixelBuffer)

let handVisionPixelX = Int((handVisionPoint1.x * scaleFactor).rounded())
let handVisionPixelY = Int((handVisionPoint1.y * scaleFactor).rounded())

let handVisionPixe2X = Int((handVisionPoint2.x * scaleFactor).rounded())
let handVisionPixe2Y = Int((handVisionPoint2.y * scaleFactor).rounded())

CVPixelBufferLockBaseAddress(depthPixelBuffer, .readOnly)

let rowDataPoint1 = CVPixelBufferGetBaseAddress(depthPixelBuffer)! + handVisionPixelY * CVPixelBufferGetBytesPerRow(depthPixelBuffer)
let handVisionPoint1Depth = rowDataPoint1.assumingMemoryBound(to: Float32.self)[handVisionPixelX]

print("DEPTH POINT 1 = ", handVisionPoint1Depth)

let rowDataPoint2 = CVPixelBufferGetBaseAddress(depthPixelBuffer)! + handVisionPixe2Y * CVPixelBufferGetBytesPerRow(depthPixelBuffer)
let handVisionPoint2Depth = rowDataPoint2.assumingMemoryBound(to: Float32.self)[handVisionPixe2X]

print("DEPTH POINT 2 = ", handVisionPoint2Depth)
//Int((width - touchPoint.x) * (height - touchPoint.y))
}
< /code>
На мой взгляд, сейчас я думаю, что моя логика для поиска правильного пикселя в карте глубины неверна. Если это не так, то мне интересно, не синхронизируется ли поток данных. Но, честно говоря, я просто немного потерян в данный момент. Спасибо за помощь!  

Подробнее здесь: [url]https://stackoverflow.com/questions/77723453/truedepth-camera-pixel-distance-inaccuracies[/url]