Support VML image size in shape

aarbouin · alexysdussier · commit 8c83b143c240 · 2020-07-22T11:22:51.000+02:00
diff --git a/mammoth/docx/body_xml.py b/mammoth/docx/body_xml.py
@@ -10,7 +10,7 @@
 from .styles_xml import Styles
 from .uris import replace_fragment, uri_to_zip_entry_name
 
-EMU_TO_PIXEL = 1 / 9525
+EMU_PER_PIXEL = 9525
 
 if sys.version_info >= (3, ):
     unichr = chr
@@ -404,7 +404,7 @@ def inline(element):
         return _read_blips(blips, alt_text, size)
 
     def _emu_to_pixel(emu):
-        return round(int(emu) * EMU_TO_PIXEL)
+        return round(int(emu) / EMU_PER_PIXEL)
 
     def _read_blips(blips, alt_text, size):
         return _ReadResult.concat(lists.map(lambda blip: _read_blip(blip, alt_text, size), blips))
@@ -454,14 +454,37 @@ def open_image():
 
         return image_path, open_image
 
-    def read_imagedata(element):
+    def shape(element):
+        if len(element.children) == 1:
+            imagedata = element.find_child("v:imagedata")
+            if imagedata:
+                size = _read_shape_size(element)
+                return read_imagedata(imagedata, size)
+        return read_child_elements(element)
+
+    def _read_shape_size(element):
+        style_attribute = element.attributes.get("style")
+        if not style_attribute:
+            return None
+        style = style_attribute.split(";")
+        width = _extract_size_from_style("width", style)
+        height = _extract_size_from_style("height", style)
+        size = documents.Size(width=width, height=height)
+        return size
+
+    def _extract_size_from_style(style_name, style):
+        with_column = "{}:".format(style_name)
+        raw_size = next(iter(filter(lambda s: s.startswith(with_column), style)))
+        return raw_size.replace(with_column, "")
+
+    def read_imagedata(element, style=None):
         relationship_id = element.attributes.get("r:id")
         if relationship_id is None:
             warning = results.warning("A v:imagedata element without a relationship ID was ignored")
             return _empty_result_with_message(warning)
         else:
             title = element.attributes.get("o:title")
-            return _read_image(lambda: _find_embedded_image(relationship_id), title)
+            return _read_image(lambda: _find_embedded_image(relationship_id), title, style)
 
     def note_reference_reader(note_type):
         def note_reference(element):
@@ -496,7 +519,7 @@ def read_sdt(element):
         "v:group": read_child_elements,
         "v:rect": read_child_elements,
         "v:roundrect": read_child_elements,
-        "v:shape": read_child_elements,
+        "v:shape": shape,
         "v:textbox": read_child_elements,
         "w:txbxContent": read_child_elements,
         "w:pict": pict,
diff --git a/tests/docx/body_xml_tests.py b/tests/docx/body_xml_tests.py
@@ -2,7 +2,7 @@
 import sys
 
 from precisely import assert_that, is_sequence
-from nose.tools import istest, assert_equal
+from nose.tools import istest, assert_equal, assert_is_none
 from nose_parameterized import parameterized, param
 import funk
 
@@ -885,39 +885,92 @@ class ImageTests(object):
     IMAGE_RELATIONSHIP_ID = "rId5"
 
     def _read_embedded_image(self, element):
+        return self._read_embedded_images(element)[0]
+
+    def _read_embedded_images(self, element):
         relationships = Relationships([
             _image_relationship(self.IMAGE_RELATIONSHIP_ID, "media/hat.png"),
         ])
-
         mocks = funk.Mocks()
         docx_file = mocks.mock()
         funk.allows(docx_file).open("word/media/hat.png").returns(io.BytesIO(self.IMAGE_BYTES))
-
         content_types = mocks.mock()
         funk.allows(content_types).find_content_type("word/media/hat.png").returns("image/png")
-
-        return _read_and_get_document_xml_element(
+        return _read_and_get_document_xml_elements(
             element,
             content_types=content_types,
             relationships=relationships,
             docx_file=docx_file,
         )
 
     @istest
-    def can_read_imagedata_elements_with_rid_attribute(self):
-        imagedata_element = xml_element("v:imagedata", {
-            "r:id": self.IMAGE_RELATIONSHIP_ID,
-            "o:title": "It's a hat"
-        })
+    def can_read_shape_elements_with_rid_and_size_attributes(self):
+        shape_element = xml_element("v:shape", {"style": "width:31.5pt;height:38.25pt"}, [
+            xml_element("v:imagedata", {
+                "r:id": self.IMAGE_RELATIONSHIP_ID,
+                "o:title": "It's a hat"
+            })
+        ])
 
-        image = self._read_embedded_image(imagedata_element)
+        image = self._read_embedded_image(shape_element)
 
         assert_equal(documents.Image, type(image))
         assert_equal("It's a hat", image.alt_text)
         assert_equal("image/png", image.content_type)
+        assert_equal(documents.Size(width="31.5pt", height="38.25pt"), image.size)
         with image.open() as image_file:
             assert_equal(self.IMAGE_BYTES, image_file.read())
 
+    @istest
+    def cannot_resize_shape_with_multiple_nodes(self):
+        shape_element = xml_element("v:shape", {"style": "width:31.5pt;height:38.25pt"}, [
+            xml_element("v:imagedata", {
+                "r:id": self.IMAGE_RELATIONSHIP_ID,
+                "o:title": "It's a hat"
+            }),
+            xml_element("v:textbox", {}, [
+                xml_element("w:txbxContent", {}, [
+                    _paragraph_with_style_id("textbox-content")
+                ])
+            ])
+        ])
+
+        nodes = self._read_embedded_images(shape_element)
+
+        assert_equal(2, len(nodes))
+        image_node = nodes[0]
+        assert_equal(documents.Image, type(image_node))
+        assert_equal("It's a hat", image_node.alt_text)
+        assert_is_none(image_node.size)
+
+    @istest
+    def can_read_shape_elements_with_unused_style_elements(self):
+        shape_element = xml_element("v:shape", {"style": "width:31.5pt;position:absolute;height:38.25pt"}, [
+            xml_element("v:imagedata", {
+                "r:id": self.IMAGE_RELATIONSHIP_ID,
+                "o:title": "It's a hat"
+            })
+        ])
+
+        image = self._read_embedded_image(shape_element)
+
+        assert_equal(documents.Image, type(image))
+        assert_equal(documents.Size(width="31.5pt", height="38.25pt"), image.size)
+
+    @istest
+    def can_read_shape_elements_with_inch_size_attributes(self):
+        shape_element = xml_element("v:shape", {"style": "width:0.58in;height:0.708in"}, [
+            xml_element("v:imagedata", {
+                "r:id": self.IMAGE_RELATIONSHIP_ID,
+                "o:title": "It's a hat"
+            })
+        ])
+
+        image = self._read_embedded_image(shape_element)
+
+        assert_equal(documents.Image, type(image))
+        assert_equal(documents.Size(width="0.58in", height="0.708in"), image.size)
+
     @istest
     def when_imagedata_element_has_no_relationship_id_then_it_is_ignored_with_warning(self):
         imagedata_element = xml_element("v:imagedata")